4.1基于统计的自动摘要
基于统计的自动摘要也称为自动摘录,是将文本视为句子的线性序列,将句子视为词的线性序列。包括以下步骤:
(1)原始文本处理:按照计算机能够识别的形式输入文本信息,比如:键盘输入、手写录入、文本扫描、图形识别、语音识别等。
(2)词语权重计算:对原始文本信息中的"关键词"进行词频统计。
(3)句子权重计算:根据句子中词频等信息计算句子权重。其标准为:句子权重与句中所含"关键词"的数量成正比;文本信息中包含提示词,则提高句子权重;文本信息中特殊位置上的句子权重增加;若句子中包含废弃指示词则句子权重减小;句子长度与句子权重成反比。
(4)文摘句提取:对原文中所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句。
(5)文摘句输出:将所有文摘句按照它们在原文中的出现顺序输出。其中,计算词语权重、句子权重、选择文摘句的依据是文本的6种形式特征:
(1)F词频(Frequency):能够指示文章主题的有效词(Signifi-cantW ords)往往是中频词。根据句子中有效词的个数可以计算句子的权值。
(2)T标题(Title):标题是作者给出的提示文章内容的短语,借助停用词词表(Stop list),在标题或小标题中剔除功能词或只具有一般意义的名词,剩下的词和原文内容往往有紧密的联系,可以作为有效词。
(3)L位置(Location):文本信息中处于特殊位置,如首段、末段、段首、段末等,句子权重应提升。
(4)S句法结构(Syntactic Structure):句式与句子的重要性之间存在联系,比如文摘中的句子多为陈述句,而疑问句、感叹句等不宜成为文摘句。
(5)C提示词(Cue):句子中有些词或短语本身不是关键词,但它们能起提示作用,告诉读者此句含有重要信息,如"signifi-cant","im portant","因此","综上所述"等。
(6)I指示性短语(Indicative Phrase):指那些具有主题的词组。如"the purpose of","the m ain aim of","本文提出了","我们认为"等。
文本的6种形式特征是自动摘录的依据,它们从不同角度指示了文章的主题,但都不够准确全面。需要将上述各种特征"有机"地结合起来,以W=f(F,T,L,S,C,I)作为计算句子权值的公
式。
基于统计的方法领域不受限、速度快、摘要长度可调节,但它局限于文本表层信息,生成的摘要质量较差,存在内容不全面、语句冗余、不连贯等问题。
目前,很多自动摘要系统都使用这种方法,在此基础上采用了不同的方法计算词语和句子的权重使得文摘句的提取不断优化。
4.2基于理解的自动摘要
基于理解的自动摘要以人工智能技术,特别是自然语言理解技术为核心。在对文本进行语法结构分析的同时,利用了领域知识对文本的语义进行分析,通过判断推理,得出文摘句的语义描述,根据语义描述自动生成摘要。包括以下步骤:
其中,文本分析是最重要的环节,包括语法分析、语义分析、句法分析。
(1)语法分析:借助于知识库中的词典和文法规则对输入的文本信息进行语法分析,确定词形和词义,切分句子并找出词间句法上的联系,以一种数据结构描述这些联系,如文法结构树[4]。
(2)语义分析:将句子孤立于所处的环境仅从字面上分析意义。最主要的方法是进行文本标注,通过标注表示词之间的前后依赖关系、句之间语义衔接关系、段之间语义聚合或转移关系,运用领域知识库所描述的知识,把语义标注转换为机器能"理解"的语义网络。
(3)句法分析:分析文献中的每个词,给出它对全文的贡献,包括修辞、句法和语义知识及文献的话语结构属性。这种方法采用了复杂的自然语言理解和生成技术,对文献意义把握更准确,因此摘要质量较好,具有简洁精练、全面准确、可读性强等优点。但理解文摘不仅要求计算机具有自然语言理解和生成能力,还需要表达和组织各种背景、领域知识,难度巨大。因此,这种方法仅限于狭小的应用领域。
4.3基于信息抽取的自动摘要
基于理解的自动摘要方法需要对文章进行全面的分析,生成详尽的语义表达,这对于大规模真实文本而言是很难实现的。而信息抽取只对有用的文本片段进行有限深度的分析,效率和灵活性显著提高。
基于信息抽取的自动摘要也称为模板填写式自动摘要。它以摘要框架为中枢,分为选择与生成两个阶段。包括以下步骤:
由于摘要框架的编写完全依赖于领域知识,所以信息抽取仍然是受领域限制的。信息抽取要应用于多个领域,就必须为每个领域都编写一个摘要框架,在处理文本时先进行主题识别,根据主题调用相应的摘要框架。另外,由于摘要是利用模板生成的,语言千篇一律,十分呆板。
4.4基于结构的自动摘要
将文本信息视为句子的关联网络,选择与很多句子都有联系的中心句构成摘要,这就是基于结构的自动摘要。
篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间存在着错综复杂的关系。篇章结构分析清楚了,文章的核心部分自然能够找到。但语言学对于篇章结构的研究不够,可用的形式规则极少了,这使得基于结构的自动摘要到目前为止还没有一套成熟的方法。已被采用的方法有:基于关联网络的自动摘要、基于修辞结构的自动摘要、基于语用功能的自动摘要。
相关推荐
针对传统图模型方法进行文本摘要时只考虑统计特征或浅层次语义特征,缺乏对深层次主题语义特征的挖掘与利用,提出了融合主题特征后多维度度量的文本自动摘要方法MDSR(multi-dimension summarization rank)。...
我的专业工作案例可以从以下链接下载: ...需要预先安装同一目录下...中英文文本自动摘要、自动校对、自动分类、相关性与相似性聚类、主题词与标签自动生成、微博(短文本)聚类和情感分析。我的研究成果,欢迎下载传播。
研究50多年,取得一定进展,但仍不能令人满意 困难在哪里? 摘要撰写是一项高度智能,同时也很”自由”的任务 机器写摘要vs.专家写摘要 代表性系统 NewsInEssenceby University of Michigan ...
基于循环神经网络和注意力机制的Sequence-to-Sequence模型神经网络方法在信息抽取和自动摘要生成方面发挥了重要作用。然而,该方法不能充分利用文本的语言特征信息,且生成结果中存在未登录词问题,从而影响文本摘要...
近年来,互联网技术的蓬勃发展极大地便利了人类的日常生活,不可避免的是互联网中的信息呈井喷式爆发,如何从中快速有效地获取所需信息显得极为重要.
基于深度学习的文本自动摘要方案.pdf
自动文本摘要研究综述.docx
音视频-编解码-面向事件的社交媒体文本自动摘要研究.pdf
第九章:文档自动摘要技术(3学时) 第十章:信息抽取(3学时) 第十一章:智能问答(QA)技术(1.5学时) 第十二章:Ontology(1.5学时) 第十三章:半结构化文本挖掘方法(1.5学时) 第十四章:文本挖掘工具与应用...
为了控制文本水印自动摘要攻击造成的语义信息损失, 在已有的自动摘要评估方法的基础上, 针对自动摘要文本水印攻击算法提出一种评估文本语义损失度的算法。该方法通过量化句子语义, 合理计算摘要攻击造成的语义损失; ...
介绍了XML文本自动摘要的研究现状,对现存的XML文本自动文摘技术进行了分析和评估,论述了目前该研究方向上尚未解决的一些问题和未来的发展趋势。
自动文本摘要的方法分为两个主要类别:提取性和抽象性。 提取摘要的常见方法包括根据句子的相关性,选择最能代表原始文本表达信息的最具代表性的句子。 一种流行的抽象文本摘要方法是使用编码器-解码器结构,该结构...
在现有研究的基础上,使用TextRank算法并考虑句子间的相似性,使TextRank算法与文本的整体结构信息、句子的上下文信息等相结合,如文档句子或者段落的物理位置、特征句子、核心句子等有可能提升权重的句子来生成文本...
的摘要长度、线性规划、次模函数、启发式算法等选择文本单元.内容组织是指对候选集的内容进行整理形成最终摘要,可根据字数要求按顺序输出,也有研究者提出使用基于语义信
基于主题模型的多文档自动文摘方法研究
基于文本关系图摘要是当下多主题文本摘要中常用方法,针对该方法的不足,对其进行了改进。首先,由 于基于词频统计的文本相似度计算方法对句子作用有限,引入依存句法分析,通过挖掘语义信息来扩展句子特征 项,提高句子...
第九章:文档自动摘要技术(3学时) 第十章:信息抽取(3学时) 第十一章:智能问答(QA)技术(1.5学时) 第十二章:Ontology(1.5学时) 第十三章:半结构化文本挖掘方法(1.5学时) 第十四章:文本挖掘工具与应用...
在本文中,我们构建了印尼语自动摘要数据集,并对印尼语自动摘要进行了相关研究。 并且在本文中,我们提出了一种基于句子相似度聚类的高效的基于提取的自动文本摘要方法。 基于聚类的思想,本文考虑了句子的语义,...
第九章:文档自动摘要技术(3学时) 第十章:信息抽取(3学时) 第十一章:智能问答(QA)技术(1.5学时) 第十二章:Ontology(1.5学时) 第十三章:半结构化文本挖掘方法(1.5学时) 第十四章:文本挖掘工具与应用...
基于关键词密度与结构的自动摘要研究,李洪岩,刘瑞芳,对文章生成自动摘要是一种重要的文本处理技术。自动生成摘要将文本中最有用的一部分信息呈现出来,便于大家浏览和判断,所以是一