在人名识别:[我, 爱, 杨, 尚, 川] 中,爱、杨、尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢?
下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Java分布式中文分词组件 - word分词:
人名识别:[我, 爱, 杨, 尚, 川] 识别到人名:爱杨尚 识别到人名:杨尚川 识别到人名:尚川 开始从多个识别结果中选择一个最佳的结果:[[我, 爱杨尚/nr, 川], [我, 爱, 杨尚川/nr], [我, 爱, 杨, 尚川/nr]] 1、开始处理:[我, 爱杨尚/nr, 川] 忽略已经标注过的词:爱杨尚/nr 词序列:[我/r, 爱杨尚/nr, 川/l] 的词性序列:r n l 长度的负值也作为分值:-3 评分结果:-3 2、开始处理:[我, 爱, 杨尚川/nr] 忽略已经标注过的词:杨尚川/nr 词序列:[我/r, 爱/v, 杨尚川/nr] 的词性序列:r v n v n词序增加分值:1 长度的负值也作为分值:-3 评分结果:-2 3、开始处理:[我/r, 爱/v, 杨, 尚川/nr] 忽略已经标注过的词:爱/v 忽略已经标注过的词:我/r 忽略已经标注过的词:尚川/nr 词序列:[我/r, 爱/v, 杨/nr, 尚川/nr] 的词性序列:r v n n v n词序增加分值:1 长度的负值也作为分值:-4 评分结果:-3 选择结果:[我/r, 爱/v, 杨尚川/nr]
相关推荐
目前包括分词,词性标注,命名实体识别等.zip基于Pytorch+BERT+CRF的NLP序列标注模型,目前包括分词,词性标注,命名实体识别等.zip基于Pytorch+BERT+CRF的NLP序列标注模型,目前包括分词,词性标注,命名实体识别等...
.python代码
提出了一种基于词性嵌入的特征权重计算方法,通过构造一种特征嵌入模式将名词、动词、形容词、副词四种词性对情感分类的贡献度嵌入到传统的TF-IDF(Term Frequency-Inverse Document Frequency)权值中。其中,词性...
基于隐马尔科夫模型的序列标注(python源码+项目说明)(用于中文分词、词性标注、命名实体识别等).zip 基于隐马尔科夫模型的序列标注(python源码+项目说明)(用于中文分词、词性标注、命名实体识别等).zip 基于...
文的方法是 , 首先对中文人名的构成、姓名用字的 规律及上下文文本信息特征进行充分分析 , 在此基 础上建立起两组规则集 , 将其作用于测试文本 , 获 得初步识别结果 , 再利用大规模语料库的统计信息 对初步识别结果...
摘要要要要::为提高句子相似度的准确率,从结构相似度出发,提出基于词性及词性依存关系的句子结构相似度计算方法。该方法从正向和逆向比较句子的词性序列,获得 2 个
在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,...
构建了一个基于海量语料的网络热点新词识别框架,整合了所提出的基于逐层剪枝算法的重复模式提取,基于统计学习模型的新词检测及基于组合特征的新词词性猜测等3个重要算法,用以提高新词识别的处理能力和识别效果。...
中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别 关键词提取 TextRank关键词提取 自动摘要 TextRank自动摘要 短语提取 基于互信息和左右信息熵的短语提取 拼音转换 多音字 声母 韵母 声调 简繁转换...
基于bert的中文自然语言处理工具,包括情感分析、中文分词、词性标注、以及命名实体识别功能,并提供文本分类任务、序列标注任务、句对关系判断任务的训练与预测接口 说明 基于bert的中文自然语言处理工具 包括情感...
在介绍常用的文本分类中特征词提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方法——基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维数...
本文提出一种基于 CRFs 模型的中文词性标注方法。该方法利用 CRFs 模型能够添加任意特征的优点 ,在使用词的上下文信息的同时 ,针对兼类词和未登录词添加了新 ...
提出了一种基于汉语句子的分词与词性标注信息做逗号自动分类的方法,并采用了两种有监督的机器学习分类器,即最大熵分类器和CRF分类器,来完成逗号的自动分类。在CTB 6.0语料上的实验表明,CRF的总体结果比最大熵的...
基于词性标注的特征定位方法,张希远,李宏伟,特征与相关实现代码之间关系的逆向恢复被称为特征定位。现有特征定位技术主要依赖于分析动态执行情况或程序语法结构,无法充分利
在统计自然语言处理领域,经常要面对的是序列标注问题:根据观察值序列来确定其状态序列"例如在词性标注任务中,需要对每个词标注其词性,在这里,词就是观察值,而词性就是观察值的状态"一个观察值可能有多个状态,...
考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法 (,-),并利用.,/0, 算法来筛选出关键词以完成将123 文档进行快速有效分类的目的。实验表明,该方法在不 影响...
针对此问题,提出一种位置标签与词性相结合的组合词抽取方法。首先对语料进行文本预处理、添加位置标签、加权词频过滤等建立词条的位置标签集;然后依据位置标签集计算词条在句子中的相邻度判定组合词;最后制定反...
本文提出一种基于CRFs 模型的中文词性标注方法。该方法利用CRFs 模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1 月份语料库上进行的封闭测试和...
以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和...
Java 实现的自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 自动摘要 短语提取 拼音 简繁转换。.zip,自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 新词发现 关键词短语提取 ...