`
kongshanxuelin
  • 浏览: 916773 次
  • 性别: Icon_minigender_1
  • 来自: 宁波
社区版块
存档分类
最新评论

通用数据抽取系统的设计与实现

阅读更多
1.可以实现异地的同构(可扩展)数据库的数据抽取。
2.由于考虑到地市局不能通过JDBC直连省局数据库,所以我们这里采用WEB SERVICE来绕过省局的防火墙,从而通过返回的SOAP信息的解析正确执行数据抽取操作。
3.由于考虑到数据源不一定是数据库,也可能是XML文件,所以我们的系统提供XML文件为数据源的数据抽取操作,但此XML文件必须遵循一定的格式。
4.由于考虑到数据抽取过程中可能会遇到记录重复的记录,我们这里采用重复的记录可以略过或者更新,同时这些设置都可以在data.xml可配置,但要指出的是如果需要更新重复的记录,则必须定义目的表的关键字列表,同时抽取操作将大大减慢速度,所以除非有必要,要不然,请不要这么做。
5.由于考虑到有的抽取操作必须定时定点执行,而且在一定的周期下,重复执行抽取操作,所以系统也提供了可配置的这种需求的实现。
6.由于考虑到少数情况下的大的数据量的抽取操作,而ORACLE本身提供的JDBC驱动不能执行有效的数据抽取操作,所以我们这里采用INET的JDBC驱动来执行数据抽取操作,这在数据源的定义中,可配置。
7.由于考虑到有的复杂的数据抽取操作并不能简单的以语句集来实现,所以我们的系统提供自己编写复杂类,然后把该类加入到包中,然后经过配置就可以执行该复杂类,但需要指出的是该复杂类必须继承自,具体的可供的函数请查看我们给出的JAVADOC文档

在我的另一篇博文中有该源代码和工具的下载地址:http://cxlh.iteye.com/blog/243132
  • 大小: 42.5 KB
  • 大小: 34.5 KB
分享到:
评论
5 楼 jeekchen 2009-03-13  
和我做的一个数据适配引擎有点像,可以适配来自http、webservice、各种数据库的数据
4 楼 脑袋雷劈的 2009-03-12  
不知道怎么实现异构库之间的数据抽取!
3 楼 grandboy 2008-10-22  
我用过SQLServer 2005, ETL功能挺方便的。源数据和目标数据都可以是其他数据库。
2 楼 yashilandai86 2008-10-08  
oracle 的ODI比较好用,但是整个软件运行起来占资源奥!
1 楼 godson_2003 2008-09-17  
不错 可以看一下oracle的odi数据抽取产品,国内用的好像不多;

相关推荐

    最全数据中台相关规范.

    * 数据抽取:从源系统中抽取数据 * 数据转换:将抽取的数据转换为目标系统所需的格式 * 数据加载:将转换后的数据加载到目标系统中 ETL 设计的工具包括 datax、streamsets 等,同步方式包括全量同步和增量同步两种...

    大数据采集整编系统解决方案定义.pdf

    通用数据采集模块主要是指根据XX各部门业务工作过程中数据采集报送的通用需求,设计实现需求的采报流程。该模块提供了: * 可视化的数据采报需求管理 * 快捷易用的任务列表方便用户快速进行任务的查看并执行任务的...

    大数据采集整编系统解决方案.pdf

    通用数据采集模块设计实现需求的采报流程,提供可视化的数据采报需求管理、快捷易用的任务列表方便用户快速进行任务的查看并执行任务的相关操作。该模块提供数据需求提报的手段,为战略规划办制定年度采报计划或临时...

    垂直搜索引擎的设计与实现

    论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入...

    论文研究-通用互联网信息采集系统的设计与初步实现.pdf

    通过建立网页资源库,结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类...

    python数据可视化分析毕业设计(源码+文档).zip

    一、内容概要:本课题研究的是通用网络爬虫,它是从一个或若干个初始网页的链接...四、阅读建议:首先阅读python数据可视化分析毕业设计.docx文档掌握整个系统的设计过程以及使用到的技术,接着阅读源码,运行源码。

    基于EtherCAT的从站微处理器的设计与实现

    格式的数据帧的封装与解析工作,能够准确地实现主战与从站之间的数据交换 功能。所设计的LPC1754芯片能够实现整个EtherCAT网络化控制系统中从站微 处理器的功能。整个模块工作稳定可靠,能够满足基本的工业化网络...

    论文研究-异构数据集成采集交换平台中安全审计技术的设计与实现.pdf

    以自行开发的基于异构数据源通用ETLA工具为背景,讨论了其审计监控子系统的设计方法和实现。该子系统具有完整的审计安全保护、监控整个数据的ETLA过程和日志分析功能。

    达梦数据交换平台产品白皮书.doc

    达梦数据交换平台创新地将传统的 ETL 工具(Extract、Transform、Loading)与分布式消息平台相结合,实现了对数据抽取、传输、整合、以及装载的一站式支持,是构建数据中心、数据仓库、数据交换和数据同步等数据集成...

    北京中科信软数据仓库培训

    决策支持系统的数据抽取流程所带来的数据仓库技术 使用数据仓库技术的原因 如何使用数据仓库来加速商业决策和提高决策的质量 中间休息十分钟 数据仓库的概念和术语 通用的,被广泛接受的数据仓库定义 独立和非...

    基于机器学习技术的LTE网络智能优化系统设计.pdf

    在 LTE 小区粒度的特征抽取和分析中,需要使用机器学习算法来实现自动化的学习和挖掘出现网优秀的参数配置经验,并建立起LTE小区级特征数据与参数配置经验的模型。基于协同过滤算法,可以实现针对不同场景特征的小区...

    政府数据交换平台解决方案.doc

    系统设计则需遵循以下几个基本设计原则: * 不影响现有或其它相关信息系统的使用和信息安全 * 采用先进成熟、稳定的技术和软硬件平台 * 坚持开放性,易于技术更新 * 采用国际通用标准,便于和国际接轨,易于系统...

    基于BeautifulSoup,pyecharts,jieba,Tkinter的Python版通用网络爬虫

    一、内容概要:本课题研究的是通用网络爬虫,它是从一个或若干个初始网页的链接...四、阅读建议:首先阅读python数据可视化分析毕业设计.docx文档掌握整个系统的设计过程以及使用到的技术,接着阅读源码,运行源码。

    概要设计说明书模版

    示例:为了开发人员更好的从整体上把把握系统,理解需求、快速准确地进行概要设计与详细设计,同时方便今后设计人员和开发人员的维护工作,特在《01-湖南移动渠道系统功能规格说明书.doc》的基础上撰写此文档资料。...

    NDMP_的块级备份_恢复方法及其实现

    NDMP 的块级备份恢复方法的设计实现可以分为三个部分:通信层、消息解析层和消息执行层。通信层负责建立连接、接收消息,消息经过解析后,找到对应的处理函数执行任务。文件服务器需要对一系列备份版本进行数据融合...

    北京中科信软oracle培训课件

    决策支持系统的数据抽取流程所带来的数据仓库技术 使用数据仓库技术的原因 如何使用数据仓库来加速商业决策和提高决策的质量 中间休息十分钟 数据仓库的概念和术语 通用的,被广泛接受的数据仓库定义 独立和非...

    数据库系统-招标参数---模板.doc

    数据库系统 "序号 "指标项 "技术规格要求 " " "数据库通用功能 "支持ANSI/ISO SQL-89、ANSI/ISO SQL-92标准; " " " "支持中文汉字内码,符合双字节编码; " " " "数据库产品应具有良好的图形化用户界面(GUI) " " ...

    Access 2000数据库系统设计(PDF)---002

    Access 2000数据库系统设计(PDF)---002目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....

    Access 2000数据库系统设计(PDF)---003

    Access 2000数据库系统设计(PDF)---002目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....

Global site tag (gtag.js) - Google Analytics