`

文本自动摘要的方法研究

阅读更多

文本自动摘要经历几十年的研究,主要采用以下四种方法:基于统计的自动摘要、基于理解的自动摘要、基于信息抽取的自动摘要和基于结构的自动摘要

4.1基于统计的自动摘要

基于统计的自动摘要也称为自动摘录,是将文本视为句子的线性序列,将句子视为词的线性序列。包括以下步骤:

文本自动摘要的方法研究 - xieweifeng008 - 分享每一天

(1)原始文本处理:按照计算机能够识别的形式输入文本信息,比如:键盘输入、手写录入、文本扫描、图形识别、语音识别等。

(2)词语权重计算:对原始文本信息中的"关键词"进行词频统计。

(3)句子权重计算:根据句子中词频等信息计算句子权重。其标准为:句子权重与句中所含"关键词"的数量成正比;文本信息中包含提示词,则提高句子权重;文本信息中特殊位置上的句子权重增加;若句子中包含废弃指示词则句子权重减小;句子长度与句子权重成反比。

(4)文摘句提取:对原文中所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句。

(5)文摘句输出:将所有文摘句按照它们在原文中的出现顺序输出。其中,计算词语权重、句子权重、选择文摘句的依据是文本的6种形式特征:

(1)F词频(Frequency):能够指示文章主题的有效词(Signifi-cantW ords)往往是中频词。根据句子中有效词的个数可以计算句子的权值。

(2)T标题(Title):标题是作者给出的提示文章内容的短语,借助停用词词表(Stop list),在标题或小标题中剔除功能词或只具有一般意义的名词,剩下的词和原文内容往往有紧密的联系,可以作为有效词。

(3)L位置(Location):文本信息中处于特殊位置,如首段、末段、段首、段末等,句子权重应提升。

(4)S句法结构(Syntactic Structure):句式与句子的重要性之间存在联系,比如文摘中的句子多为陈述句,而疑问句、感叹句等不宜成为文摘句。

(5)C提示词(Cue):句子中有些词或短语本身不是关键词,但它们能起提示作用,告诉读者此句含有重要信息,如"signifi-cant","im portant","因此","综上所述"等。

(6)I指示性短语(Indicative Phrase):指那些具有主题的词组。如"the purpose of","the m ain aim of","本文提出了","我们认为"等。

文本的6种形式特征是自动摘录的依据,它们从不同角度指示了文章的主题,但都不够准确全面。需要将上述各种特征"有机"地结合起来,以W=f(F,T,L,S,C,I)作为计算句子权值的公

式。

基于统计的方法领域不受限、速度快、摘要长度可调节,但它局限于文本表层信息,生成的摘要质量较差,存在内容不全面、语句冗余、不连贯等问题。

目前,很多自动摘要系统都使用这种方法,在此基础上采用了不同的方法计算词语和句子的权重使得文摘句的提取不断优化。

4.2基于理解的自动摘要

基于理解的自动摘要以人工智能技术,特别是自然语言理解技术为核心。在对文本进行语法结构分析的同时,利用了领域知识对文本的语义进行分析,通过判断推理,得出文摘句的语义描述,根据语义描述自动生成摘要。包括以下步骤:

文本自动摘要的方法研究 - xieweifeng008 - 分享每一天

其中,文本分析是最重要的环节,包括语法分析、语义分析、句法分析。

(1)语法分析:借助于知识库中的词典和文法规则对输入的文本信息进行语法分析,确定词形和词义,切分句子并找出词间句法上的联系,以一种数据结构描述这些联系,如文法结构树[4]。

(2)语义分析:将句子孤立于所处的环境仅从字面上分析意义。最主要的方法是进行文本标注,通过标注表示词之间的前后依赖关系、句之间语义衔接关系、段之间语义聚合或转移关系,运用领域知识库所描述的知识,把语义标注转换为机器能"理解"的语义网络。

(3)句法分析:分析文献中的每个词,给出它对全文的贡献,包括修辞、句法和语义知识及文献的话语结构属性。这种方法采用了复杂的自然语言理解和生成技术,对文献意义把握更准确,因此摘要质量较好,具有简洁精练、全面准确、可读性强等优点。但理解文摘不仅要求计算机具有自然语言理解和生成能力,还需要表达和组织各种背景、领域知识,难度巨大。因此,这种方法仅限于狭小的应用领域。

4.3基于信息抽取的自动摘要

基于理解的自动摘要方法需要对文章进行全面的分析,生成详尽的语义表达,这对于大规模真实文本而言是很难实现的。而信息抽取只对有用的文本片段进行有限深度的分析,效率和灵活性显著提高。

基于信息抽取的自动摘要也称为模板填写式自动摘要。它以摘要框架为中枢,分为选择与生成两个阶段。包括以下步骤:

文本自动摘要的方法研究 - xieweifeng008 - 分享每一天

由于摘要框架的编写完全依赖于领域知识,所以信息抽取仍然是受领域限制的。信息抽取要应用于多个领域,就必须为每个领域都编写一个摘要框架,在处理文本时先进行主题识别,根据主题调用相应的摘要框架。另外,由于摘要是利用模板生成的,语言千篇一律,十分呆板。

4.4基于结构的自动摘要

将文本信息视为句子的关联网络,选择与很多句子都有联系的中心句构成摘要,这就是基于结构的自动摘要。

篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间存在着错综复杂的关系。篇章结构分析清楚了,文章的核心部分自然能够找到。但语言学对于篇章结构的研究不够,可用的形式规则极少了,这使得基于结构的自动摘要到目前为止还没有一套成熟的方法。已被采用的方法有:基于关联网络的自动摘要、基于修辞结构的自动摘要、基于语用功能的自动摘要。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics