`

转:数据抽取核心问题

阅读更多

第一章 简介

1.1    数据抽取核心问题

数据抽取是数据仓库技术中最谨慎的工作,因为其涉及到其它正式系统,成功的数据抽取必须保证对正式系统影响足够小,同时数据抽取性能足够好。这样就有如下结构性建设建议:

n         链接正式系统用户只有查询权限,并且数据库链接用户及密码保密。我们公司的链接正式系统用户为MBBI,该用户密码由网络管理科管理,所以DBLINK由网络管理科进行配置;

n         数据抽取速度足够快。数据抽取分初始化和增量抽取,抽取初始化数据量较大,需要网络管理开放一定的网络速度,按当前速度1小时可以抽取5000万条以上数据,增量抽取因为数据量较小,可以把网络速度控制在正常范围内。增量抽取分日志完全增量方式和关键字段增量抽取,现在大部分BI公司采用的是后者,比如说把近一个月数据抽取过来,每天更新,这种方式除了每天抽取数据量远远超过实际增量外,还在理论上存在数据空隙的风险。

n         需要在DW端保留一个业务备用库。数据仓库的设计不可能一步到位,而如果每次数据仓库的改动都需要从业务库读取数据,那么对业务库的影响将非常明显,可用的解决办法就是在DW端保留一个业务映像库,该库保持和业务系统库完全一致的结构。

n         必须清楚业务库的改动和DW之间的关系,知道其解决办法。常遇到的问题是业务库表结构变化,这时我们采用的武汉视图映像业务库技术就会遇到问题,其必须有解决办法。

分享到:
评论

相关推荐

    数据仓库数据仓库和我们经常提到的数据库有哪些区别

    数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。  ⑵存储和管理:数据仓库的真正关键是...

    数据整合平台使用指南.pdf

    先抽取加载到目标数据库后再进行清洗转换的 ELT 方式,充分利用数据库服务器自身的性能优势,通过异构数据采集、转换 脚本任务、作业控制流、计划调度、实时监控等核心服务引擎,开发人员只需要掌握基本的 SQL 语言...

    基于CWM的企业元数据集成中元数据抽取与导出研究 (2008年)

    公共仓库元模型(CWM)是为了在数据仓库和业务分析环境之间方便交换元数据而制定的一个标准,并已经...基于CWM的企业元数据集成相关技术,重点探讨集成中元数据的抽取与导出问题,给出相应的导出规则以及一个应用实例。

    中医药知识图谱探索demo:数据集、介绍文章、可视化结果.zip

    构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,...

    KnowledgeGraphCourse.zip

    4.4 面向半结构化数据的知识抽取 4.5 面向非机构化数据的知识抽取 第5讲 知识抽取:数据采集(2019-3-29) 5.1 数据采集原理和技术 爬虫原理 请求和响应 多线程并行爬取 反爬机制应对 5.2 数据采集实践 百科 论坛 ...

    论数据中心的数据应用系统规划.doc

    " 建设内容 (1)搭建数据交换平台,建设ETL应用,实现ODS到数据仓库、数据仓库到数据集市 的数据抽取、清晰、转换与加载。 (2)开发决策分析应用,通过报表、即席查询、多维分析、数据挖掘等多种分析技 术与工具...

    数字化转型时代的数据仓库.rar

    通过高效的数据抽取、转换和加载(ETL)流程设计,以及先进的数据建模技术,帮助企业建立起既符合当前需求又能适应未来发展趋势的数据仓库体系。同时,它还深入探讨了大数据技术、云计算服务以及人工智能算法在数据...

    基于wikipedia数据的装备领域文本抽取与知识图谱构建-数据获取.zip

    构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,...

    利用pandas将excel中数据抽取,以三元组形式加载到neo4j数据库中构建相关知识图谱.zip

    构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,...

    数据仓库的概念及特点

    数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 <br> ⑵存储和管理:数据仓库的真正...

    论文研究-金融领域的事件句抽取.pdf

    事件句抽取是事件抽取中的核心环节,在金融领域中,公司名识别则是事件句抽取中的重点和难点。针对金融领域的事件句抽取,首先充分利用互联网搜索和上市公司名信息进行公司名识别,如果一个N元组是公司名,则进行...

    数据中台解决方案.pptx

    数据采集是将数据源中的数据抽取并传输到数据中台的过程。需要选择合适的数据采集工具和技术,包括ETL工具、日志采集工具、API接口等,确保数据的实时性和准确性。 三、数据存储 数据存储是数据中台的核心,需要...

    数据中台技术架构设计方案.pptx

    数据采集是将数据源中的数据抽取并传输到数据中台的过程。需要选择合适的数据采集工具和技术,包括ETL工具、日志采集工具、API接口等,确保数据的实时性和准确性。 三、数据存储 数据存储是数据中台的核心,需要...

    数据中台技术架构设计方案 .docx

    数据采集是将数据源中的数据抽取并传输到数据中台的过程。需要选择合适的数据采集工具和技术,包括ETL工具、日志采集工具、API接口等,确保数据的实时性和准确性。 三、数据存储 数据存储是数据中台的核心,需要...

    CCL2022 汽车工业故障模式关系抽取评测

    该记录包括故障现象、故障原因以及排故过程等,故障案例知识的重复利用受到数据结构化程度的影响,因而识别数据中的部件单元、性能表征、故障状态等核心实体及其组合的故障模式关系至关重要。 通过从大量故障案例...

    数据分析入门.pptx

    数据处理 定义:数据处理是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。 万能工具:EXCEL Tips:在做数据处理时,不要在原始数据上进行数据处理以防...

    基于wikipedia数据的装备领域文本抽取与知识图谱构建-SPN模型部分.zip

    构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,...

Global site tag (gtag.js) - Google Analytics