`

汉语自动分词小结

 
阅读更多

中文分词存在的问题是分词规范(怎么才算是一个词)和歧义切分(交集型歧义:结合成且为结合|成、结|合成。组合型歧义:他站|起|身|来。他明天|起身|去北京。),以及未登录词,如中文名准确率较高,外文译名准确率很低,地名可以由词表解决,组织机构名词表可以解决部分。

分词方法总的分为基于词表基于统计和规则

正向最大匹配、逆向最大匹配法、双向扫描、逐词遍历法都是基于词表的。基于词表可以解决普通词汇分词问题,此外可以针对歧义切分,有N-最短路径(先基于词表粗分,由词构有向无环图,dijkstra贪心找最短路径,包含最优词序)、HMM隐马尔科夫(初始状态(词性)概率矩阵、状态转移矩阵(词性到词性)、从状态(词性)观察到输出符号(单词)的概率矩阵)、基于三元统计模型的分词、字构词。

未登录词有两类:新词或专业术语词(先词表,后人工)

实体名词和专有名词。这一类词的词次占8.7%,引起错误分词占59.2%,这类词是这机器翻译、信息检索、文本分类和信息提取的关键问题。主要专有名词问题和效果顺序:外国译名、中国人名、地名、组织机构名。解决方法:基于规则(专有名词库和人工归纳规则)和机器学习(基于HMM、最大熵、错误驱动)。

基于多特征的命名实体识别模型由词形上下文模型p(WC)、词性上下文模型P(TC)、实体词形模型、实体词性模型。

 

 

分享到:
评论

相关推荐

    汉语自动分词与内容分析法研究

    汉语自动分词是目前中文信息处理中公认的难题,因为汉语自动分词是自然语言理解、机器翻译、信息检索、语言文字研究、汉语文本自动标引、内容分析等研究领域中最基本的一个环节,也是中文信息自动处理的“瓶颈”。...

    汉语自动分词技术内幕.PDF

    汉语自动分词技术内幕.PDF 汉语自动分词技术内幕.PDF 汉语自动分词技术内幕.PDF 汉语自动分词技术内幕.PDF

    汉语自动分词

    调用“海量智能分词”提供的动态链接库,实现汉语自动分词,并且搭建图形界面用于操作和显示。 首先下载“海量智能分词”软件,解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll...

    汉语自动分词词典机制的实验研究.pdf

    汉语自动分词词典机制的实验研究.pdf

    中文自动分词算法

    中文自动分词算法 中文自动分词算法是自然语言处理中的一项基本技术,旨在将中文文本切分成单个词语,以便更好地进行信息检索、自动标引、自动文摘、机器翻译、语言学研究、搜索引擎研究和自然语言理解等领域的应用...

    汉语文本自动分词算法

    :分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结 合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有...

    汉语分词技术综述.pdf

    [摘要]首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动 分类、文本信息过滤,自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文...

    汉语自动分词研究综述.PDF

    汉语自动分词研究综述.PDF 汉语自动分词研究综述.PDF

    汉语自动分词技术的现状及发展趋势.pdf

    汉语自动分词技术的现状及发展趋势.pdf 期刊论文

    基于EM算法的汉语自动分词

    汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词 的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可 夫模型,并重点...

    汉语自动分词词典机制的实验研究

    分词词典是汉语自动分词系统的一个基本组成部分。 其查询速度直接影响到分词 系统的处理速度。 本文设计并通过实验考察了三种典型的分词词典机制: 整词二分、TRIE 索 引树及逐字二分, 着重比较了它们的时间、空间...

    基于EM算法的汉语自动分词方法

    汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点...

    汉语自动分词技术的最新发展及其在信息检索中的应用

    汉语自动分词技术的最新发展及其在信息检索中的应用

    汉语自动分词的研究现状与困难.PDF

    汉语自动分词的研究现状与困难.PDF 汉语自动分词的研究现状与困难.PDF

    分语算法,分词算法介绍

    分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 ...

    基于无指导学习策略的无词表条件下的汉语自动分词

    基于无指导学习策略和无词表条件下的汉语自动分词方法,以期对研制开放环境下健壮的分词系统.全部分词知识源自从生语料库中自动获得的汉字Bigram

    汉语自动分词和命名实体识别

    该资源对命名实体识别和自动分词技术进行了研究。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要...

    简单的中文分词程序(练习)

    http://blog.csdn.net/u013754134/article/details/20208671 个人练习 非常简单的分词程序(非源码)

    N-gram模型和机器学习的汉语分词算法

    这是一篇关于自然语言处理的论文,介绍了汉语分词的n-gram算法,绝对值得推荐

    汉语分词技术综述 文档 论文

    首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动 分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的...

Global site tag (gtag.js) - Google Analytics