`
wolongshan
  • 浏览: 68771 次
  • 性别: Icon_minigender_1
  • 来自: 厦门
社区版块
存档分类
最新评论

数据仓库建设持续改进数据质量 (一)

阅读更多

数据仓库建设持续改进数据质量 (一)

开发者在线 Builder.com.cn 更新时间:2006-07-12作者:原作者 深圳天源迪科计算机有限公司 秦红伟 陈国礼 来源:

本文关键词: Datawarehousing

数据仓库系统的建设过程和方法不同于建设传统的操作型处理系统的过程和方法,数据仓库系统建设有两个难点:一是如何保证数据质量,使得数据准确可信;二是如何构造应用体系,使之满足不同角色用户的分析决策需要。

受生产系统现状的影响,如数据源的数据不完整、不一致,数据抽取时间点不能同步,本地网之间存在市场竞争及业务规则的差异性,各专业之间统计口径的不一致等,数据质量问题客观存在,数据质量问题的管控工作将贯穿数据仓库系统建设的整个过程。数据仓库系统应用来源于用户需求,来源于开发商的商业理解,应用的开发和完善也受到数据质量的制约。因此,数据仓库系统建设需要实现数据和应用的互动。

数据仓库对数据质量的要求

数据仓库对数据质量的要求总体上归纳为:数据完整性,包括数据源是否完整、数据取值是否完整、维度取值是否完整等。数据准确性,包括数据源是否准确、编码映射关系是否准确、处理逻辑是否准确等。数据核对准确的判断是要么结果一致,要么不一致但原因是可解释的。数据一致性,包括源系统之间同一数据是否一致,源数据与抽取的数据是否一致,数据仓库内部各处理环节数据是否一致等。数据逻辑合理性,主要从业务逻辑的角度判断数据是否正确,如帐目类型的金额、时长、次数的逻辑关系是否满足等;月租费用不能出现通话次数、通话时长等。数据时效性,包括数据处理(获取、整理、加载等)的及时性,数据异常检测的及时性,数据处理回退的及时性等。

数据仓库服务于经营决策,经营决策依据的数据应该是全面的、真实可靠的、有意义的。数据时效性如果得不到保证,就可能延误了市场人员的分析,失去商机。

从数据仓库的建设过程来看,它本身修复数据以提高数据质量的能力并不是很强,但是它能发现生产系统存在的一些数据质量问题从而提醒用户哪些数据有质量问题,将数据问题反馈到业务支撑系统中,由后者做数据修正。

源数据质量现状分析

传统的业务支撑系统以满足生产的业务处理为目标,以内部管理需求为出发点,各种支撑系统独立设计,缺乏对企业整体业务流程的考虑,缺乏对资源的有效利用,在企业内部形成了许多信息孤岛。主要体现在:

◎数据过于分散,手工处理数据和系统处理数据并存,数据格式多样。

◎在数据模型上,实体语义定义、属性定义、命名规则、编码规则自成体系,难于与其他系统做匹配。

◎系统间存在同一实体数据记录数不一致的现象,例如计费系统和九七系统中客户数量不一致。

◎存在信息残缺现象,没有完整的统一客户视图。

◎在生产系统中存在需要拆分为具有原子性的数据, 源数据的粒度太粗不能满足分析要求。

◎在同一省公司,不同本地网出帐时不一样,造成数据提供时间不统一。

数据质量的改进存在以下难点:

◎数据量大,数据格式不统一。

◎数据质量标准不容易制定。

◎数据清理的边界不容易定义。

◎生产系统不断升级改造、人员岗位调整等因素容易造成前清后乱。

由于数据仓库系统的数据来源于计费、营账、客服、网管等多种业务系统,在各种源数据的整合过程中常发现不同系统中的数据不一致,同时源数据的质量问题比较突出。在数据仓库系统建设初期数据质量不高在所难免,这需要在系统建设和使用过程中不断进行修正和补充,从而逐步完善并最终解决系统的数据质量问题。

数据质量改进目标

目标是清理、标准化、提高和匹配现有数据。

通过数据整合,建立完整的、准确的、一致的统一客户视图,完善企业共享信息数据,并使企业共享信息数据服务于经营分析,为生产系统的改进提供标准。 建立数据整合流程,实现流程定义、流程配置和流程管控。 建立数据整合的规章制度,落实数据质量的分级负责。建立起数据整合队伍,使数据质量能够得以持续改进。

数据质量改进是一个持续的过程,在系统建设及应用推广过程中,需要针对不同重要程度的数据,制定相应的数据质量评测及接受标准。对于阶段目标应按照“近期打基础,中期见成效,长期促战略”的原则制定。

数据质量改进方法

数据质量控制要从技术、流程和管理三个方面进行。

从技术层面上,生产系统存在的噪音数据、遗漏数据和不一致性数据,需要进行数据清洗;同时需要对源数据做稽核,如总量稽核和分量稽核。

在流程层面上,对于源数据的抽取要遵从一定的业务规则,数据的抽取和转换需要很多步骤来完成,这就需要将过程流程化,并且流程可通过配置来实现。

在管理层面上,要求生产系统报送数据,按照“谁提供数据,谁负责”的原则由生产系统保证源数据的完整性、准确性、一致性、时效性。

应用推动数据质量改进

数据整合的目的是为了支撑应用,让经营分析系统真正能够被用起来,核心的问题还是要找到应用的“驱动力”。对中国电信而言,满足精确化管理、精确资源配置、上市公司信息披露要求是重点。

各地的具体情况不同,因此应遵循“因地制宜、总体规划、分步实施、迅速受益、不断完善”的原则进行应用推广。不追求一步到位,建议以点带面,通过“亮点”应用带动相关数据质量整改。例如通过收入分析主题,可以发现量收不匹配的问题,促使生产系统检查收入的计算规则。

这样通过应用发现数据中存在的问题,并将问题反馈给生产系统;通过应用让用户看到效果,调动起用户的热情,并为其树立起信心;通过应用引起领导的重视,保证资源的有效投入;让各级部门关注数据问题,让责任部门有压力也有动力。

分享到:
评论

相关推荐

    数据仓库建设中如何持续改进数据的质量

    数据仓库对数据质量的要求总体上归纳为:数据完整性、数据准确性、数据...在数据仓库系统建设初期数据质量不高在所难免,这需要在系统建设和使用过程中不断进行修正和补充,从而逐步完善并最终解决系统的数据质量问题。

    数据仓库建设持续改进数据质量探讨

    数据仓库对数据质量的要求总体上归纳为:数据完整性,... 从数据仓库的建设过程来看,它本身修复数据以提高数据质量的能力并不是很强,但是它能发现生产系统存在的一些数据质量问题从而提醒用户哪些数据有质量问题。

    大数据环境下的数据质量管理策略.docx

    提出一种数据质量策略,从建立数据质量评价体系、落实质量信息的采集分析与监控、建立持续改进的工作机制和完善元数据管理4个方面,多方位优化改进,最终形成一套完善的质量管理体系,为信息系统提供高质量的数据...

    数据安全治理解决方案.docx

    数据治理体系是指从组织架构、管理制度、操作规范、IT 应用技术、绩效考核支持等多个维度对组织的数据模型、数据架构、数据质量、数据安全、数据生命周期等各方面进行全面的梳理、建设以及持续改进的体系。...

    医疗大数据仓项目解决方案.docx

    数据仓库建设:采用分布式存储和计算技术,构建一个高性能、高可用、可扩展的数据仓库。该数据仓库可以存储海量的医疗数据,并提供高效的数据查询和处理能力。同时,采用数据分区、数据压缩等技术,提高数据存储的...

    智慧城市管理平台解决方案.docx

    通过建设数据中心和数据仓库,实现数据的统一存储、管理和共享,为城市的各项应用提供数据支撑。 二、智慧政务 在政务方面,平台可以提供在线办事、信息查询、政民互动等功能,方便市民和企业随时随地进行业务办理...

    有效利用“大数据”.docx

    误区三:实施大数据战略就是建设数据仓库 银行实施大数据战略是一个长期的、持续的、迭代的过程,数据仓库是实施大数据战略的基础,但大数据战略不仅仅包括数有效利用"大数据"全文共7页,当前为第4页。有效利用...

    智慧校园建设方案.pptx

    综合数据分析&辅助决策管理:建设统一数据仓库整合各院校信息平台 高效资产管理:建立统一的资产管理平台,利用RFID、二维码等技术实施跟踪 智能安防保障: 融合传统安防与红外、异常对比、实时定位、主动报警技术 ...

    运营商大数据需求分析报告.pdf

    运营商已深刻认识到大 数据的重要性,均在数据仓库建设方面投入了大量资源,在企业内部已 经利用大数据实现消费行为记录管理。大数据分析也已经成为运营商提 升核心竞争力,创新业务模式的有力手段。 运营商数据一般...

    浅析大数据的重要性.doc

    传统的企业数据仓库不仅数据量大而且查询分析复杂,不利 于企业在激烈的经济竞争中占有优势地位,因而现代企业管理唯有采用数据处理的新模 式,才能实现更强的决策力、洞察发现力和流程优化能力。 综合来说,大数据...

    李国庆:很多电商抱着靠短跑取胜的赌徒心态.docx

    李国庆表示,当当这些年一直在一些基础设施上进行大量投入,比如投资云计算研发、建仓库、大搞平台建设、品类扩展,比如持续改善售后服务,持续改善包装,更多城市实现了次日达和当日达。在进行这些投入的同时,当当...

    building_storage_networks_chsSAN存储区域网络 .rar

    这些价格的下降使公司能够提供更广泛的商业需要,包括企业资源计划、销售自动化、数据仓库、数据市场等。同时,存储价格的下降也加速了信息的数字化,而在过去,许多信息仅能以模拟形式或书写的形式存在,如出版物...

    智能制造中的名词释义.pdf

    MES 可以为企业提供包括制造数据管理、计划排产管理、⽣产调度管理、库存管理、质量管理、⼈⼒资源管理、⼯作中⼼/设备管理、 ⼯具⼯装管理、采购管理、成本管理、项⽬看板管理、⽣产过程控制、底层数据集成分析、...

    “看见”大数据.docx

    PureData 数据仓库为使用者提供了预先优化、开箱即用的分析功能,帮助使用者在快速的分析查询、极少的持续优化操作以及价值的快速实现等方面改进分析流程。中心配备的Cognos商业智能,则赋予了用户不受限制的商业...

    ERP学习必看课件,详细的讲解了ERP的内容

    多数企业错误的认为ERP实施是一项简单的企业信息化建设工程或企业管理信息系统工程。目标设得过高或过低,就很容易模糊不清。目标一模糊,就很难落实到具体的实施工作中,不顾重点,胡子眉毛一把抓,导致投资过大、...

Global site tag (gtag.js) - Google Analytics