pyhanlp用户自定义词典添加实例说明
pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp
经过测试,HanLP比nltk在中文分词和实体识别方面都更好用.
如何向pyhanlp添加自定义的词典?以python 2.7.9为例:
1.安装pyhanlp:pip install pyhanlp
2.在字典路径下添加自定义的词典:CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。
具体绝对路径可用hanlp --version获取:
#hanlp --version
jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar
data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data
config:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties
#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"
3.建议在该路径下添加自己的词典文件例如 我的词典.txt,并将其加入上面的properties文件里的CustomDictionaryPath下面。
#cat 我的词典.txt
codis集群 nz 1000
今日头条 nz 1000
第一列为词条,第二列为词性(默认为n),第三列为词频
4.然后需要删除缓存文件,这样python才会重新加载新增的文件:
#rm -f CustomDictionary.txt.bin
5.测试新增的词典:
python -c "from pyhanlp import *;print(HanLP.segment('codis集群,今日头条'))"
五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes
警告:读取
/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (没有那个文件或目录)
报这个错误没有关系,只是个warning,重新加载缓存文件而已。
备注:
HanLP词性列表:详细的词性列表可以查询hanlp项目网站上内容,更为全面详细!
---------------------
作者:明月三千里68
原文:https://blog.csdn.net/jly8866/article/details/80338800
相关推荐
jieba分词的自定义词典:使用jieba分词对语料进行分词之前,需要先载入,载入代码为jieba.load_userdict("userdict.txt")。
NLPIR分词工具由中科院开发,其支持用户自定义词典。这是在做商品评论情感分析时整理的2019个自定义词汇。
电子游戏相关自定义词典,共58万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
生活百科相关自定义词典,共67万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
娱乐休闲明星电影相关自定义词典相关自定义词典,共35万词,每行一个词,不重复,明星名字,电影名,电视剧名等
经供参考
社会科学相关自定义词典,共31万词,每行一个词,不重复
人文科学相关自定义词典,共152万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
艺术设计相关自定义词典,共10万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
在Word2021自定义词典中添加和删除单词.docx
农林渔畜相关自定义词典,共6万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
自然科学相关的一些词,共有34万个不同的词,都是自然科学相关的
Word2021中添加自定义词典的方法.docx
(自定义)单词词典dict.txt
#加载词典 def load_dict_from_file(filepath): _dict = {} try: with io.open(filepath, 'r',encoding='utf-8') as dict_file: for line in dict_file: (key, value) = line.strip().split(' ') #将...
工程应用相关自定义词典,共46万词,每行一个词,不重复,工程方面相关的词典
31万个不同的词的自定义词典,不同词,包含城市,乡镇机关,学校,单位等等
jieba青春有你2自定义分词词典,青春有你2评论爬取,青春有你2视频饭圈自定义分词词典,jieba分词Python分词词典
这是一个基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右... 用户自定义词典,关键字提取,自动摘要,关键字标记等功能 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.