中文分词工具之基于字标注法的分词 - hadoop小学生 - ITeye博客

`

adnb34g

浏览: 76840 次

最近访客更多访客>>

adonis_yang

海麻雀

小taomi_77

zhangly2011

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

中文分词工具之基于字标注法的分词

博客分类：

人工智能，机器学习

阅读更多

基于字标注法的分词

中文分词字标注通常有2-tag,4-tag和6-tag这几种方法，其中4-tag方法最为常用。标注集是依据汉字（其中也有少量的非汉字字符）在汉语词中的位置设计的。

1. 2-tag法

2-tag是一种最简单的标注方法,标注集合为{B,I}，其将词首标记设计为B，而将词的其他位置标记设计为I。例如词语“重庆”的标注结果是“重/B 庆/I”，而“大学生”的标注结果为“大/B 学/I 生/I”

对于以下句子

迈向充满希望的新世纪 —— 一九九八年新年讲话

使用2-tag（B，I）的标注结果为

迈/B向/I 充/B满/I 希/B望/I 的/B 新/B 世/B纪/I —/B—/I 一/B九/I九/I八/I年/I 新/B年/I 讲/B话/I

2.4-tag法

4-tag标注集合为{S,B,M,E}，S表示单字为词，B表示词的首字，M表示词的中间字，E表示词的结尾字。对于以下句子

迈向充满希望的新世纪 —— 一九九八年新年讲话

使用4-tag（S,B,M,E）的标注结果为

迈/B向/E 充/B满/E 希/B望/E 的/S 新/S 世/B纪/E —/B—/E 一/B九/M九/M八/M年/E 新/B年/E 讲/B话/E

参考我爱自然语言处理博客， python实现方法为

图1

本文使用 pku语料库，其原始格式为

图2

标注后的结果为

图3

3.6-tag法

6-tag标注集合为{S,B,M1,M2,M,E}，S表示单字为词，B表示词的首字，M1/M2/M表示词的中间字，E表示词的结尾字。例如“大学生”可以标注为“大/B 学/M 生/E” 。

作者：bigdollar

原文链接：https://blog.csdn.net/bigdollar/article/details/82564000

查看图片附件

分享到：

pyhanlp 繁简转换之拼音转换与字符正则化 | 自然语言处理工具中的中文分词器介绍

2019-06-26 10:30
浏览 319
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

字词频统计和切分词工具(词性标注工具，用于分词管理): 字词频统计和切分词工具(词性标注工具，用于分词管理)，两个工具，支持单文件和目录处理。

中文分词入门与字标注法: 在中文分词中，资源的重要性又不言而喻，最大匹配法等需要一个好的词表，而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词，第一步需要解决的就是资源问题，这里曾经介绍过“LDC上免费...

基于LSTM和CRF的中文分词源码（采用BEMO标注）（python）.zip: 基于LSTM和CRF的中文分词源码（采用BEMO标注）（python）.zip基于LSTM和CRF的中文分词源码（采用BEMO标注）（python）.zip基于LSTM和CRF的中文分词源码（采用BEMO标注）（python）.zip基于LSTM和CRF的中文分词源码...

Python-基于UniversalTransformerCRF的中文分词和词性标注: Sequence labeling base on universal transformer (Transformer encoder) and CRF; 基于Universal Transformer CRF 的中文分词和词性标注

论文研究-基于粗分和词性标注的中文分词方法.pdf: 在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上，根据隐马尔可夫模型标注词性，通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估，...

HMM中文分词: 基于HMM的中文分词代码，虽然基于字标注的中文分词借鉴了词性标注的思想，但是在实践中，多数paper中的方法似乎局限于最大熵模型和条件随机场的应用，所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢...

论文研究-基于LSTM网络的序列标注中文分词法.pdf: 当前主流的中文分词方法是基于字标注的传统机器学习方法，但传统机器学习方法需要人为地从中文文本中配置并提取特征，存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究，提出基于LSTM（long ...

Python-使用keras实现的基于BiLSTMCRF的中文分词词性标注: 使用keras实现的基于Bi-LSTM CRF的中文分词词性标注

分词和词性标注工具，非常好用: 很好用的工具，可进行分词和词性标注！！！！！！！！！！！！！！！！！

论文研究-基于音节标注的藏文自动分词研究.pdf: 实验结果表明，在当前四字位的标注集下，基于条件随机场的藏文分词系统取得了最好的分词结果，同时其他序列标注模型也取得了较好的效果，说明基于音节标注的分词方法可以较为有效地处理藏文分词问题。

分词和词性标注工具: 分词和词性标注工具分词和词性标注工具分词和词性标注工具分词和词性标注工具分词和词性标注工具

基于循环神经网络序列标注的中文分词研究.pdf: 基于循环神经网络序列标注的中文分词研究.pdf

java分词工具: 分析了先阶段好用的分词工具，java中使用的分词工具进行了分析，都做了个demo.

基于CRFs 的中文分词和短文本分类技术.pdf: 在中文分词领域，基于字标注的方法得到广泛应用。通过字标注系统，中文分词任务被转换为序列标注任务，许多成熟的机器学习算法得以应用。评测结果表明，在众多的机器学习算法中，基于CRFs的分词器可以达到state-of-...

基于BI＿LSTM＿CRF神经网络的序列标注中文分词方法.pdf: 基于BI＿LSTM＿CRF神经网络的序列标注中文分词方法.pdf

基于bert的中文自然语言处理工具，包括情感分析、中文分词、词性标注、以及命名实体识别功能,并提供文本分类任务、序列标注任务、句: 基于bert的中文自然语言处理工具，包括情感分析、中文分词、词性标注、以及命名实体识别功能,并提供文本分类任务、序列标注任务、句对关系判断任务的训练与预测接口说明基于bert的中文自然语言处理工具包括情感...

基于隐马尔科夫模型的序列标注（python源码+项目说明）（用于中文分词、词性标注、命名实体识别等）.zip: 基于隐马尔科夫模型的序列标注（python源码+项目说明）（用于中文分词、词性标注、命名实体识别等）.zip 基于隐马尔科夫模型的序列标注（python源码+项目说明）（用于中文分词、词性标注、命名实体识别等）.zip 基于...

基于Python实现的词典分词方法或统计分词方法.zip: 实现基于词典的分词方法和统计分词方法：两类方法中各实现一种即可；对分词结果进行词性标注，也可以在分词的同时进行词性标注；对分词及词性标注结果进行评价，包括4个指标：正确率、召回率、F1值和效率。 ...

C# 中文分词词性标注: C# 中文分词词性标注

Global site tag (gtag.js) - Google Analytics