数据抽取是数据仓库技术中最谨慎的工作,因为其涉及到其它正式系统,成功的数据抽取必须保证对正式系统影响足够小,同时数据抽取性能足够好。这样就有如下结构性建设建议:
n 链接正式系统用户只有查询权限,并且数据库链接用户及密码保密。我们公司的链接正式系统用户为MBBI,该用户密码由网络管理科管理,所以DBLINK由网络管理科进行配置;
n 数据抽取速度足够快。数据抽取分初始化和增量抽取,抽取初始化数据量较大,需要网络管理开放一定的网络速度,按当前速度1小时可以抽取5000万条以上数据,增量抽取因为数据量较小,可以把网络速度控制在正常范围内。增量抽取分日志完全增量方式和关键字段增量抽取,现在大部分BI公司采用的是后者,比如说把近一个月数据抽取过来,每天更新,这种方式除了每天抽取数据量远远超过实际增量外,还在理论上存在数据空隙的风险。
n 需要在DW端保留一个业务备用库。数据仓库的设计不可能一步到位,而如果每次数据仓库的改动都需要从业务库读取数据,那么对业务库的影响将非常明显,可用的解决办法就是在DW端保留一个业务映像库,该库保持和业务系统库完全一致的结构。
n 必须清楚业务库的改动和DW之间的关系,知道其解决办法。常遇到的问题是业务库表结构变化,这时我们采用的武汉视图映像业务库技术就会遇到问题,其必须有解决办法。
分享到:
相关推荐
数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 ⑵存储和管理:数据仓库的真正关键是...
先抽取加载到目标数据库后再进行清洗转换的 ELT 方式,充分利用数据库服务器自身的性能优势,通过异构数据采集、转换 脚本任务、作业控制流、计划调度、实时监控等核心服务引擎,开发人员只需要掌握基本的 SQL 语言...
公共仓库元模型(CWM)是为了在数据仓库和业务分析环境之间方便交换元数据而制定的一个标准,并已经...基于CWM的企业元数据集成相关技术,重点探讨集成中元数据的抽取与导出问题,给出相应的导出规则以及一个应用实例。
构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,...
4.4 面向半结构化数据的知识抽取 4.5 面向非机构化数据的知识抽取 第5讲 知识抽取:数据采集(2019-3-29) 5.1 数据采集原理和技术 爬虫原理 请求和响应 多线程并行爬取 反爬机制应对 5.2 数据采集实践 百科 论坛 ...
" 建设内容 (1)搭建数据交换平台,建设ETL应用,实现ODS到数据仓库、数据仓库到数据集市 的数据抽取、清晰、转换与加载。 (2)开发决策分析应用,通过报表、即席查询、多维分析、数据挖掘等多种分析技 术与工具...
通过高效的数据抽取、转换和加载(ETL)流程设计,以及先进的数据建模技术,帮助企业建立起既符合当前需求又能适应未来发展趋势的数据仓库体系。同时,它还深入探讨了大数据技术、云计算服务以及人工智能算法在数据...
构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,...
构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,...
数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 <br> ⑵存储和管理:数据仓库的真正...
事件句抽取是事件抽取中的核心环节,在金融领域中,公司名识别则是事件句抽取中的重点和难点。针对金融领域的事件句抽取,首先充分利用互联网搜索和上市公司名信息进行公司名识别,如果一个N元组是公司名,则进行...
数据采集是将数据源中的数据抽取并传输到数据中台的过程。需要选择合适的数据采集工具和技术,包括ETL工具、日志采集工具、API接口等,确保数据的实时性和准确性。 三、数据存储 数据存储是数据中台的核心,需要...
数据采集是将数据源中的数据抽取并传输到数据中台的过程。需要选择合适的数据采集工具和技术,包括ETL工具、日志采集工具、API接口等,确保数据的实时性和准确性。 三、数据存储 数据存储是数据中台的核心,需要...
数据采集是将数据源中的数据抽取并传输到数据中台的过程。需要选择合适的数据采集工具和技术,包括ETL工具、日志采集工具、API接口等,确保数据的实时性和准确性。 三、数据存储 数据存储是数据中台的核心,需要...
该记录包括故障现象、故障原因以及排故过程等,故障案例知识的重复利用受到数据结构化程度的影响,因而识别数据中的部件单元、性能表征、故障状态等核心实体及其组合的故障模式关系至关重要。 通过从大量故障案例...
数据处理 定义:数据处理是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。 万能工具:EXCEL Tips:在做数据处理时,不要在原始数据上进行数据处理以防...
构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,...