以下分词工具均能在Python环境中直接调用(排名不分先后)。
1、jieba(结巴分词) 免费使用
2、HanLP(汉语言处理包) 免费使用
3、SnowNLP(中文的类库) 免费使用
4、FoolNLTK(中文处理工具包) 免费使用
5、Jiagu(甲骨NLP) 免费使用
6、pyltp(哈工大语言云) 商用需要付费
7、THULAC(清华中文词法分析工具包) 商用需要付费
8、NLPIR(汉语分词系统) 付费使用
1、jieba(结巴分词)
“结巴”中文分词:做最好的 Python 中文分词组件。
项目Github地址:jieba
安装:
pip install jieba
使用:
import jieba
jieba.initialize()
text = '化妆和服装'
words = jieba.cut(text)
words = list(words)
print(words)
2、HanLP(汉语言处理包)
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
项目Github地址:pyhanlp
安装:
pip install pyhanlp
使用:
import pyhanlp
text = '化妆和服装'
words = []
for term in pyhanlp.HanLP.segment(text):
words.append(term.word)
print(words)
3、SnowNLP(中文的类库)
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。
项目Github地址:snownlp
安装:
pip install snownlp
使用:
import snownlp
text = '化妆和服装'
words = snownlp.SnowNLP(text).words
print(words)
4、FoolNLTK(中文处理工具包)
可能不是最快的开源中文分词,但很可能是最准的开源中文分词。
项目Github地址:FoolNLTK
安装:
pip install foolnltk
使用:
import fool
text = '化妆和服装'
words = fool.cut(text)
print(words)
5、Jiagu(甲骨NLP)
基于BiLSTM模型,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作,将Jiagu回馈给大家。
项目Github地址:jiagu
安装:
pip3 install jiagu
使用:
import jiagu
jiagu.init()
text = '化妆和服装'
words = jiagu.seg(text)
print(words)
6、pyltp(哈工大语言云)
pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。
项目Github地址:pyltp,3.4模型下载链接:网盘
安装:
pip install pyltp
使用:
import pyltp
segmentor = pyltp.Segmentor()
segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路径
text = '化妆和服装'
words = segmentor.segment(text)
words = list(words)
print(words)
7、THULAC(清华中文词法分析工具包)
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。
项目Github地址:THULAC-Python
安装:
pip install thulac
使用:
import thulac
thu = thulac.thulac(seg_only=True)
text = '化妆和服装'
words = thu.cut(text, text=True).split()
print(words)
NLPIR(汉语分词系统)
主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。
项目Github地址:pynlpir
安装:
pip install pynlpir
下载证书覆盖到安装目录,NLPIR.user 例如安装目录:/usr/lib64/python3.4/site-packages/pynlpir/Data
使用:
import pynlpir
pynlpir.open()
text = '化妆和服装'
words = pynlpir.segment(text, pos_tagging=False)
print(words)
pynlpir.close()
相关推荐
最新中文分词工具jar包,使用方便,分词准确,中文分析的一个不错的包
关键词分词工具带宏关键词分词工具带宏关键词分词工具带宏关键词分词工具带宏关键词分词工具带宏
百度竞价推广关键词自动分词工具,wps可用,需启用宏
竞价员关键词分词工具,史上最强大的,足够一个新手变成牛叉
分词小工具是一款中文分词工具,能够将txt文件内的中文自动分词并重新排版生成一份新的txt文件。用户通过中文分词工具可将中文句子中的词汇分割开来,分词后方便用户学习和纠错等,需要的朋友赶紧下载吧。 使用方法...
自带模糊分类和精确分类,智能区分,用了不知道,一用就上瘾。话不多说,直接上资源。
4、文件预览:在图形用户界面(GUI)中添加了一个部分,用以展示所选Excel文件的前五行数据。 5、字段选择自由度:增加了一个下拉菜单,让用户可以自由选择要进行分词统计的字段。 6、错误处理:在处理数据之前,我...
文本 语义 分词工具
这是盘古分词小工具,用于动态维护词典,适合初学者结合Lucene研究盘古分词。
中科院汉语分词工具ICTCLAS,中文分词,文本分词,基于C++开发
分词工具
最新,最好的竞价关键词分词工具!一键到位
seo优化工具-中文分词工具,有利于seo优化,检查seo是否合理。
最新2015年的java工程的ansj中文分词工具 myeclipse工程
中文分词很好的工具,可以自组定制
分析了先阶段好用的分词工具,java中使用的分词工具进行了分析,都做了个demo.
七种中文分词工具的实验尝试与对比,具体使用时需结合场景选择。
百度SEM分词工具终极版,里面包含精确分组表、模糊筛选表、分组后数据、最终展现等词根分组组合功能,能处理上万条关键词,将最终关键词数据导入百度推广计划中。
java版结巴分词工具,一个很好的中文分词工具。直接用eclipse打开,输入是一篇文章,然后输出是每个词的词频,并且词频是按照大小从次数最高到次数最低排的,只需要在test包里改部分代码就可以使用了。 不下你会...
新版盘古代码+分词词库+分词工具 Pan Gu Segment is a library that can segment Chinese and English words from sentence. 盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量...