三字歧义链自动分词方法

phantom

浏览: 162432 次

最近访客更多访客>>

namezhou

pistolove

jones868

cxp111

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

交通 C C++C#企业应用

三字歧义链自动分词方法

(张翠英)(山西大学信息管理系，太原030006)
(亢临生)(山西大学计算中心，太原030006)Three-words Ambiguity Chain and Word Segmentation

Zhang Cuiying
(Department of Information Management,Shanxi University,Taiyuan 030006)
Kang Linsheng
(Computer Centre,shanxi University,Taiyuan 030006)1　分析过程(如构词法、构形法、句法、语义等)，设计出解决三字歧义链问题的实用分词规则。
　　具体分析过程可概括为图1。
2.1　分析结果120万字。在分析过程中得出如下一些技术数据：
　　分词词库规模：50012条
　　二字词规模：32826条(占词库词条的66%)
　　三字串库规模：636781条
　　分析真实语料：120万字
　　语料中出现的三字链次：15972次
　　其中，只出现一次的三字链：3625次，重复性出现的三字链：2332次
　　上述数据尽管只是对120万字原语料进行分析的结果，但在120万语料中，包含了《人民日报》各栏目的内容，题材比较广泛，涉及到了社会科学和自然科学多方面的内容，对它的研究结论具有一定的实用价值。从原理上讲，就三字歧义库规模而言，出现三字歧义链的概率可能会相当大，但从真实语料中的搜索结果来看，大多数的三字歧义链在语言的实际应用中根本不会出现，因而，无需分析所有可能的三字歧义链。实际上，只对真实语料中出现的三字歧义链进行分析、研究、总结其规律和解决正确切分的方法，即能达到实用的目的。

2.2　三字歧义链分词特性(MM法)，并辅助一些特性词的处理规则(数字词规则、人名规则、前后缀规则、叠加成分规则、歧义规则等)^{［2］MM法的特点，三字歧义链按照前两个字的特性进行分类如下：

　　(1)三字链本身在切分时，应合成为一个词，而无需再分：1988年1月由温贝托大夫主持”等。3.1　分词方法的基本思路

　　目前的分词算法多种多样，基本上可分为两大类：机械性分词和理解性分词法。后者可谓理想的方法，但在语法分析、语义分析乃至篇章理解还没有得到解决之前，其分词实用系统主要采用机械分词法，但实际上纯机械性分词也无人在用，一般都使用介于二者之间的某种分词法。

　　在我们开发的分词系统中，分词法的基本思想是：在分词词库中收入一定量的实用词及一些具有某种特性的字/词(如：前缀、后缀，基数字、词素、姓氏、单字词等)，并对一些特性字/词或实用词加入一定分词特性信息。分词时，首先利用MM法从字串中匹配选出一个词/特性字，然后根据初选的词/字的分词特性调用相应规则，进行切分结果的调整，以保证分词的正确性。

3.2　三字歧义链切分规则

　　对可能产生歧义切分的词(即三字链中的前二字)根据分词特点及前述的特性分类共使用了三种分词特性代码：PT(普通词代码：当初分出该词后无需进行歧义处理，即把该词作为分词结果，系统继续后继字串处理，前述［2］属此种情况)；HH(后合特性代码：分出此类词后，系统要检测，此词的尾字是否与其后继字串可合成为词，若存在词，则第一字为词，第二字与后继字/字串组成词，前述［4］属此种情况)；QY(即可能产生歧义切分，需用一组规则进行处理，前述［3］、［5］、［6］即属这种情况)。

　　另外，对［1］类情况根据MM法特点，三字词优先被选出，因而切分时，不再进行处理即可(实际切不出前两字或后两字组成的词)；对［7］类问题应归于专用名的切分问题^［3］，在此不作论述。

　　下面对切分出分词特性为QY和HH的词后的调整规则进行论述。设：CW：当前词(即分词特性为QY)；其中C，W分别为字。

　　P=P₁P₂……：CW的后继字串；其中P₁，P₂，…分别为单字。

　　PI：P中以P_i打头的子字串。

　　含词：字串最左端含二字或二字以上的词(左字串为词)规则：

　　(1)若WP不含词，则CW切分为词。

　　(2)若WP₁为词，P1不含词则：

　　若P₁为单字词且C为非单字词，或P₁为后缀且CW为非拒合(即不能加后缀成份)，则CW切分为词，否则C切分为词。

　　(3)若WP为词则顺序检测P₂P₃…，直至P_n不含词。

　　① 若从C至P_n的字数为偶数，则CW切分为词，否则：

　　② 若C为词素且P₁为非词素，则CW切分为词，否则：

　　③ 若C为单字词且P₁为词素，则C切分为词，否则：

　　④ 若存在某个含词的P_k的分词特性为hh，则当C至P_k为偶数时，CW切分为词，否则：

　　⑤ 在CP中检索出第一个特性为单字词的字，或姓氏、前缀、后缀字p_k且p_k含词，则当c至pk为偶数时，CW切分为词，否则，C切分为词。

　　例如：“野生动物种类最多的国家之一”，包含野生动、生动物、动物种、物种类四个三字歧义链，在初分出“野生”后，根据其分词特性调用上述规则，C=野、W=生、P₁=动、P₂=物、P₃=种、P4=类、P4=类最多的国家之一，而P4不含词，因从C至P₄字数为偶数，而能切分出：“野生”为正确结果。}。根据
　　在我们开发的实用分词系统中采用的是最大匹配法
　　对三字歧义链的分析基础是在分词系统软件中使用的分词词库及摘自《人民日报》不同时期、不同栏目的真实语料共计

摘要　　歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上，根据大量的真实语料中出现的歧义现象，把可能产生歧义切分的词进行特性分类，对每类确定一组规则进行处理。
关键词　　歧义　分词特性　分词系统

AbstractThe ambiguity is one of the important problem that need to solve in the automatic word segmentation.It is introduced in this paper that the maximum matching method which can be used to classify Chinese words and phrases according to their characteristics of word segmentation,mark them with different marks and process each group of words and phrases with a certain set of rules.
Keywordsambiguity,characteristics in word segmentation,word segmentation system.

　　根据《信息处理用现代汉语分词规范》，以及自然语言理解领域中的研究结果表明，现代汉语的篇章中二字词占70%^［1］以上。因而，在自然语言理解的基础工作——自动分词过程中，能有效地处理二字歧义组合结构就成了解决歧义组合结构的关键，本文就我们开发的“现代汉语自动分词实用系统”中采用的解决三字歧义链的方法作一概述。　　　　

12.gif (25855 bytes)
图1

　　任何事物的产生和发展都有一定的特点和规律，因而找出现代汉语真实语料中出现歧义的三字链，并对它们进行分析、分类，进而总结出产生三字歧义链的特点规律，就成为解决问题的关键。在此基础上再利用汉语自身的知识

2　分析结果及三字串特性分类

［1］

　　例如：“到了近代地理学”
“防护林体系建设工程之后”
“发电机三大主机集中控制”
“公司先进工作者”
　　(2)三字链中，只能把前两个字处理为词：

［2］

　　例如：前两字都为“干部”的三字链出现过12次，但都只能把“干部”切分为词：
　　　　“选派干部长期深入下去帮助基层工作”应为“干部/长期；
“这样的干部下基层俺们打心眼里喜欢”应为：干部/下；
“甘肃省领导干部分10路下去抓春耕”应为：干部/分等。
　　(3)三字链中只能把后两个字切分为词，这类三字链又可根据第一字的分词特性分为：
　　① 第一字与前面有的字组合为词(实为连续三字链)：

［3］

　　例如：“造成交通堵塞”存在：造成交、成交通；
“尽快形成规模”存在：形成规、成规模；
“限时完成规定的目标”存在：完成规、成规定。
　　② 第一字应单独切分为词：

［4］

　　例如：“把稳定物价与适当调价结构统一在可靠的基础上”应分为：“把/稳定”；
　　工人和班组长”应分为：班/组长；
“经济文化发展之不平衡”应分为：不/平衡；
“进一步调整租买比价”应分为：步/调整。
　　(4)三字链中可能前两字应为词，也可能后两字应为词。
　　在这类三字链中，又可根据第一字和第三字的特点分为二类：
　　① 只能第一字与前面的字成词或第三字与后面的字成词(同属连续三字链的情况)：

［5］

　　例如：以“产品”打头的三字歧义链共出现过110次，但都属于这类情况：
　　“他们生产品种达60余种”应分为：“生产/品种”；
“产品质量次的企业要停产整顿”应分为：“产品/质量”；
“1980年荣获全国景泰兰产品评比第一名”应分为：“产品/评比”；
“为省优质产品评审委员会反映了意见”应分为：产品/ 评审”。
　　② 非①的情况：

［6］

　　例如：以“工人”打头的三字链共出现50次，在不同的句子中具有不同的特性：
　　“但工人们放弃了休息”应为“工人/们”；
“钟点工人数大增”应为“工/人数”；
“命名24名工人为业余的作家”应为：“工人/为”。
　　(5)由于人名、地名等专用名词引起的三字链

［7］

　　“美国格伦威尔邮局……”；
“

3　三字歧义链切分方法

4　结　　语

　　上述是对二字词可能引起歧义切分的处理方法，同样可推广到多字词。通过对上述规则实用性验证(120万语料)，其对一般二字词的歧义切分正确率达到了99%以上^［2］，但不足之处是它不包含由于专用名词引起的歧义问题，由于专用名词(尤其是人名、地名)无法枚举，有限的词库规模无法满足这类问题的分词需要，它有待于自然语言理解各方面对这类问题的新的处理成果的应用。

参考文献

［1］　李国臣、刘开瑛、张永奎：汉语自动分词及歧义组合结构的处理，《中文信息学报》，1988，2(3)，87—89
［2］　亢临生、张永奎：基于标记的分词算法，《山西大学学报》，1994，(2)，283—286
［3］　亢临生、张永奎：利用分词属性解决歧义切分，《电脑开发与应用》，1994，7(4)，2—5

分享到：

Makefile学习教程: 跟我一起写 Makefile | 非圆齿轮传动

2007-04-15 14:32

浏览 1464

评论(0)

查看更多

评论

发表评论

 您还没有登录,请您登录后再发表评论

相关推荐

中文自动分词算法

在本文中，我们讨论了分词的基本知识、分词的困难、基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法、最大匹配算法、最少切分算法和基于统计语言模型的分词算法等。通过对这些方法的分析，我们...

一种能够检测所有交叉歧义的汉语分词算法

不同于英语等西方语言，汉语文本中的词与词之间没有明显的分隔符，这使得汉语的自动分词成为一项极具挑战性的任务。在《一种能够检测所有交叉歧义的汉语分词算法》一文中，王显芳与杜利民两位学者提出了一种新颖的...

汉语自动分词技术的现状及发展趋势.pdf

汉语分词的难点主要体现在歧义字段的切分上，即如何在上下文中准确判断词语边界，这一过程往往需要利用语境知识，而语境知识的运用在传统分词方法中是一个棘手的问题，尤其是在语义和语用知识的整合上。 #### 二、...

汉语文本自动分词算法

文献中提出了一种结合最大匹配算法和概率算法的分词方法，旨在提高分词的准确性和效率。 #### 三、实验验证文中提到，通过实验验证了所提出的分词算法的有效性。实验结果表明，该算法不仅提高了分词的速度和精度...

中文信息处理自动分词

这一过程涉及到诸多算法和技术，本篇将详细介绍其中的六种主要分词方法。 1. **最大匹配法**（MaxMatch, MM）：最大匹配法是最常见的分词策略之一，根据预先设定的词典，从文本的起始位置向后寻找最长的词。有正向...

分词歧义消解示例程序

在"分词歧义消解示例程序"中，可能包含这两种方法的实现。AmbElimination这个文件可能是程序的主体部分，它可能包含了对输入文本进行分词和消歧的算法代码。可能的结构包括读取文本，应用预定义的规则库进行初步分词...

一种改进的中文分词歧义消除算法研究

针对传统的中文分词方法中存在的问题，尤其是分词歧义问题，本文提出的改进方法主要体现在以下几个方面： 1. **字的分类**：将中文分词视为对单个字的分类过程，考虑字与前后字的关系，即字是否独立，还是与前一个...

基于EM算法的汉语自动分词

对于基于EM算法的汉语自动分词方法，实验结果表明这种方法在处理未登录词方面具有明显优势，同时也能够较好地解决交集型和包孕型歧义问题。然而，这种方法对于训练数据的依赖性较高，需要大量的高质量语料库支持。...

基于java的中文自动分词（自然语言处理）

在自然语言处理（NLP）领域，中文自动分词是一项基础且重要的任务。它涉及到将连续的汉字序列切分成有意义的词语，这是理解和分析文本的第...同时，这个项目也鼓励我们去探索和改进现有的分词方法，推动NLP技术的进步。

国内中文自动分词技术研究综述_奉国和.pdf

总的来说，中文自动分词技术是中文信息处理的重要组成部分，它不仅涉及基础的算法研究，还包括歧义处理、新词识别等复杂问题。随着技术的进步，我们可以期待分词技术在自然语言理解和智能应用中发挥更大的作用。

基于深度学习的《辞海》分词方法.pdf

通过实验验证，基于深度学习的《辞海》分词方法展现了较为理想的性能，其准确率、召回率和F1值分别达到了94.18%、94.09%和94.13%，表明该分词方法能够有效应对《辞海》中古文类型广泛和知识领域广泛带来的挑战。...

基于条件随机场的中文分词方法

"基于条件随机场的中文分词方法" 本文介绍了一种基于条件随机场（Conditional Random Fields，CRF）的中文分词方法，该方法可以对中文进行高效的分词处理。CRF模型是一种基于统计的序列标记和分割方法，可以处理...

由字构词——中文分词新方法

传统的中文分词方法往往基于词典匹配或统计模型，而由字构词法则是对此的一种补充和完善。一、中文分词的重要性中文分词是将连续的汉字序列切分成有意义的词语单位，因为在汉语中没有明显的空格或其他分隔符号，...

中文自动分词哈工大-中文信息处理实验二实验报告

中文自动分词 1. 使用任意分词方法实现汉语自动分词；...4. 用实例说明所用分词方法分别对“交叉歧义”和“组合歧义”的处理能力； 5. 提交实验报告，给出详细实验过程和结果；提交源代码和可执行程序。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

三字歧义链自动分词方法

评论

发表评论

相关推荐

最近访客更多访客>>