`
jelly
  • 浏览: 299235 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

非结构化信息(数据)总结

阅读更多
非结构化信息 指信息的形式相对不固定,常常是各种格式的文件。它是相对结构化信息而言的,从宏观上看也是结构化信息的一种形式。诸如电子文档、电子邮件、网页、视频文件、多媒体等。
对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。
结构化信息是可以数字化的数据信息,可以方便地通过计算机和数据库技术进行管理。无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料 、缩微胶片等。这些资源中拥有大量的有价值的信息。这类非结构化信息正以成倍的速度增长。
 
另一种定义:
结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。
非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容(operationalcontent):如合约、发票、书信与采购记录;部门内容(workgroupcontent):如文书处理、电子表格、简报档案与电子邮件;Web内容:如HTML与XML等格式的信息;多媒体内容(Rich MediaContent):如声音、影片、图形等。
90%的信息和知识在“结构化”世界之外,IT应用中还存在着一个“非结构化”的世界。对大多数企业来说,ERP等业务系统所管理的结构化数据只占到企业全部信息和知识的10%左右,其他的90%都是数据库难以存取到的非结构化信息和知识。来自IDC的分析显示,虽然很多企业投资不菲建立了诸多业务支撑系统,但仍有72%的管理者认为知识没有在他们的组织得到重复利用,88%的人认为他们没有接触到企业最佳实践的机会。Gartner也曾预言,对非结构化信息和知识的管理将会带来一个新IT应用潮流。
非结构化信息处理类似于上世纪70年代以前的结构化信息应用。割裂、无法进行数据互操作的应用是其主流。以人们最常用的文档软件来看,DOC文档是MSWORD与WPS的专用格式,永中、中文2000等OFFICE产品厂商则各有各的“自留地”。这种情况下,由于文档格式的束缚而使信息四分五裂,信息流无法通畅流转,信息处理更加困难,信息资源因为“信息流的不通畅”而丧失了其应有的巨大价值。
从非结构化到半结构化,从半结构化到结构化,从结构化到关联数据体系,从关联数据体系到数据挖掘,从数据挖掘到故事化呈现,从故事化呈现到决策导向。
互连网上出现的海量信息,大概分为结构化、半结构化和非结构化三种。结构化信息如电子商务信息,信息的性质和量值的出现的位置是固定的;半结构化的信息如专业网站上的细分频道,其标题和正文的语法相当规范,关键词的范围相当局限;非结构化的信息如BLOG和BBS,所有内容都是不可预知的。
结构化信息和非结构化信息是IT应用的两个世界,它们有着各自不同的应用进化特点和规律。但是,这两个世界之间还缺少相互连接的桥梁,而这种缺失使企业中不可避免地存在“活动”、“信息和知识”的分离,其后果就是:虽然它们都在进行着“知识化”的努力,但两个世界分离的IT应用模式,注定使其难以真正实现它们的初衷——“在最合适的时间,将最合适的信息传送给最合适的人”。
 
 相比于交易型数据,非结构化数据(Unstructured Data)的增长速度要快很多。整理、组织并分析非结构化数据,能够为企业带来更多的竞争优势。每一个数据元素都有它的意义,尽管有些是和你不那么相关的。在本文中,我就将解释一些常见的非结构化数据问题。

  非结构化数据包括以下几个类型:

  文本:在掌握了元数据结构时,机器生成的数据,如传感器等就一定能够进行解译。当然,流数据中有一些字段需要更加高级的分析和发掘功能。

  交互数据:这里指的是社交网络中的数据,大量的业务价值隐藏其中。人们表达对人、产品的看法和观点,并以文本字段的方式存储。为了自动分析这部分数据,我们需要借助实体识别以及语义分析等技术。你需要将文本数据以实体集合的形式展现,并结合其中的关系属性。

  图像:图像识别算法已经逐渐成为了主流。此外,这些技术也会产生实体,尽管获取关系以及舆情分析更加具有挑战性。

  音频:目前有许多研究是针对于解译音频流数据的内容,并能够判断说话者的情绪。然后在利用文本分析技术对这部分数据进行分析。

  视频:毫无疑问,视频是最具挑战性的数据类型。图像识别技术可以对每一帧图像进行抽取,当然,要真正做到对视频内容进行分析还需要技术的进一步发展。而视频中又包括音频,可以用上述的技术进行解译。

  根据上述内容,我们需要一些新的数据处理与分析功能,来获得这些数据类型的价值,下面就是其中一部分技术:

  动态元数据发现:该技术主要针对文本数据,它能够动态地将元数据从结果集中抽取出来,比如新的REST结束点。在持续基础上维护和控制元数据。在运行时间,从大量可用选项中,选择适当的最佳匹配的元数据集。

  分类设置:你需要能够针对其他分析层捕获并表现你的业务及其实体,以对输入的数据进行注释和参考。由于业务元素的加入,这一分类将变得更加普遍。

  实体提取和语义分析:它能够将分类利用到任何数据流当中,并将数据流中表达的实体和关系进行提取。这种分析可以存储在一个关系型数据库当中,也可以以图表的形式进行存储。

  多媒体识别技术:如上述所言,进行非结构化数据分析,我们就需要各种解译图片、音频视频的技术。

 

其层级如下所示:

分享到:
评论

相关推荐

    面向半结构化数据的数据模型和数据挖掘方法研究

    作为互联网中重要数据形式之一,半结构...首先介绍了半结构化数据的概念及其特点,在此基础上分别从半结构化数据表示、数据模型两方面对半结构化数据模型进行介绍,最后总结半结构化数据模式与之前关系数据模式间的差别。

    基于自然语言处理的非结构化敏感信息识别.pdf

    目录 敏感信息检测背景 自然语言技术的应用 总结与展望

    结构化查询语言SQL

    查询功能、数据操纵功能和数据控结构化查询语言SQL是一种功能齐全的数据库语言,包含数据定义功能、数据制功能。其中最主要的功能就是查询。通过本章学习,学生应掌握SQL语言的使用方法和技巧,提高知识综合运用能力...

    大数据是指规模庞大、 复杂度高、 增长迅速的数据集合, 通常包括结构化数 据(如关系型数据库中的表格数据) 、 半结构化数据

    据(如关系型数据库中的表格数据) 、 半结构化数据(如 XML 文件) 和非结构 化数据(如文本文档、 图像、 音频和视频文件等) 。 大数据的特点通常被总结为 “3V” , 即体积(Volume) 、 多样性(Variety) 和...

    数据结构知识总结与结构网图

    该资源是一份关于数据结构知识的总结与结构网图。它包含了数据结构的内容概要、适用人群、使用场景及目标。 内容概要: 该资源涵盖了常见的数据结构,例如数组、链表、栈、队列、树、图等。每种数据结构都有详细的...

    信息化项目数据量分析方案.docx

    数据类型分类:根据业务需求,对数据进行分类,如结构化数据、非结构化数据等。针对不同类型的数据,分析其特点、存储需求和处理方式。 数据量估算:根据数据源和数据类型,估算项目所需处理的数据量。考虑数据的...

    数据中心拓扑总结.doc

    20 参考文献 I 数据中心拓扑总结 1.1 数据中心网络特性需求 随着网络技术的发展,数据中心已经成为提供IT网络服务、分布式并行计算等的基础 架构,为加速现代社会信息化建设、加快社会进步,发挥举足轻重的作用。...

    数据结构课程设计--迷你计算器设计

    通过该题目的设计过程,可以加深理解线性表及栈的逻辑结构、存储结构,掌握线性表及栈上基本运算的实现,进一步理解和熟练掌握课本中所学的各种数据结构,学会如何把学到的知识用于解决实际问题,培养学生的动手能力...

    数据结构各类查找总结.pdf

    数据结构查找资料总结,

    C#数据结构

    第二个是讲授常用的算法,这和数据结构一样,是人们在长期实践过程中的总结, 程序员可以直接拿来或经过少许的修改就可以使用。可以通过算法训练来提高程 序设计水平。第三个目的是通过程序设计的技能训练促进程序员...

    数据结构顺序栈实验2

    数据结构实验2 2.编写函数,采用顺序存储实现栈的初始化、入栈、出栈操作。【实验要求】 1、数据要求 顺序表中的数据是图书信息(书号、书名、价格)。 2、输入要求 输入n+1行,其中前n行是n本图书的信息(书号、...

    数据结构大作业 导航系统报告

    一、系统概述 1.开发环境:windows 10,Clion2022 ...b)两地点间最短路径:在初始化时,通过Dijkstra算法计算出任意两点间的最短距离、路径,用户使用该功能时只需查表并输出即可; c)校园导航:本 六、总结与展望

    7张图总结:SQL 数据分析常用语句.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    C语言结构化程序设计仓库管理系统程序报告书和演示PPT

    程序功能通过菜单实现,利用链表结构存贮物品信息以及库存物品相关信息,了解数据管理的基本功能、两个有关系的结构(物品信息、库存物品)之间的数据访问、文件操作以及在文本方式下菜单的实现 报告分五个部分: 一...

    数据可视化开发入门教程知识点总结.docx

    将数据转化为直观、有用的信息是数据可视化的核心价值之一。数据本身可能是抽象、复杂甚至海量的,而有效的数据可视化则能够: 简化复杂性:通过图形、图像等方式将大量复杂数据结构简洁明了地展示出来,使人...

    PB叠前叠后及文化数据加载个人总结

    PB是管理石油行业大块数据体的专业软件,除了大块数据体外还能管理井数据和非结构化数据,但数据加载过程比较特殊,本文是个人培训后的加载总结,配了注意事项和截屏图。

    大数据分析应用知识培训总结大数据挖掘.pptx

    分析步骤 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从"文档"中智能提取信息 语义引擎 数据质量和数据管理是一些管理方面...

    软件体系结构期末复习总结 什么是软件体系结构? 软件体系结构是具有⼀定形式的结构化元素,抽象的讲,软件体系结构包括构成系统的设计

    软件体系结构是具有⼀定形式的结构化元素,抽象的讲,软件体系结构包括构成系统的设计元素的描述,设计元素的交互,设计元素组合的 模式,以及在这些模式中的约束。具体的讲,体系结构 = 组件+连接件+约束 组件:...

    基于Python的南京二手房数据采集及可视化分析.zip

    最后,采用一个聚类算法对所有二手房数据进行聚类分析,并根据聚类分析的结果,将这些房源大致分类,以对所有数据的概括总结。通过上述分析,我们可以了解到目前市面上二手房各项基本特征及房源分布情况,帮助我们...

Global site tag (gtag.js) - Google Analytics