一种基于词性序列的人名识别方法

yangshangchuan

浏览: 2452256 次
性别:
来自: 北京

最近访客更多访客>>

akingde

feilafei123

wf_chn

hero.niu_126.com

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

word分词

word 中文分词人名识别词性序列

在人名识别：[我, 爱, 杨, 尚, 川] 中，爱、杨、尚都是姓，会有多个识别结果，那么我们如何消歧并选择一个最合理的结果呢？

下面看看人名识别：[我, 爱, 杨, 尚, 川] 的计算机分析过程，此过程的分析程序出自Java分布式中文分词组件 - word分词：

人名识别：[我, 爱, 杨, 尚, 川]

识别到人名：爱杨尚
识别到人名：杨尚川
识别到人名：尚川

开始从多个识别结果中选择一个最佳的结果:[[我, 爱杨尚/nr, 川], [我, 爱, 杨尚川/nr], [我, 爱, 杨, 尚川/nr]]

1、开始处理：[我, 爱杨尚/nr, 川]
忽略已经标注过的词：爱杨尚/nr
词序列：[我/r, 爱杨尚/nr, 川/l] 的词性序列：r n l 
长度的负值也作为分值：-3
评分结果：-3

2、开始处理：[我, 爱, 杨尚川/nr]
忽略已经标注过的词：杨尚川/nr
词序列：[我/r, 爱/v, 杨尚川/nr] 的词性序列：r v n 
v n词序增加分值：1
长度的负值也作为分值：-3
评分结果：-2

3、开始处理：[我/r, 爱/v, 杨, 尚川/nr]
忽略已经标注过的词：爱/v
忽略已经标注过的词：我/r
忽略已经标注过的词：尚川/nr
词序列：[我/r, 爱/v, 杨/nr, 尚川/nr] 的词性序列：r v n n 
v n词序增加分值：1
长度的负值也作为分值：-4
评分结果：-3

选择结果：[我/r, 爱/v, 杨尚川/nr]

1
顶

2
踩

分享到：

一种利用ngram模型来消除歧义的中文分词方 ... | 中文分词之11946组同义词

2015-05-05 20:20
浏览 6574
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

一种基于词性序列的人名识别方法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

一种基于词性序列的人名识别方法

评论

发表评论

相关推荐

word v1.3 发布，Java 分布式中文分词组件

正确地猜测用户的意图

利用word分词提供的文本相似度算法来辅助记忆英语单词

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

实现JDK没有提供的AtomicFloat

利用word分词通过计算词的语境来获得相关词

利用word分词来对文本进行词频统计

利用word分词来计算文本相似度

如何利用多核提升分词速度

cws_evaluation v1.1 发布，中文分词器分词效果评估对比

11大Java开源中文分词器的使用方法和分词效果对比

中文分词算法 之 基于词典的全切分算法

中文分词之9271组反义词

一种利用ngram模型来消除歧义的中文分词方法

中文分词之11946组同义词

Java分布式中文分词组件word分词v1.2发布

给LUKE增加word分词器

Java分布式中文分词组件 - word分词

最近访客更多访客>>

中文分词算法之基于词典的全切分算法