本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路。这里分享给大家学习参考。
要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现。
要注意的点是:
1.root根路径的配置:
hanlp.properties中配置如下:
#本配置文件中的路径的根目录,根目录+其他路径=完整路径(支持相对路径)
#Windows用户请注意,路径分隔符统一使用/
root=D:/Project/public_sentiment_monitor/plugin/hanlp1.6.8/
2.自定义词典路径的配置,配置文件中已经指明了相应的用法。
hanlp.properties中配置如下:
#自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。
#所有词典统一使用UTF-8编码,每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性。
CustomDictionaryPath=data/dictionary/custom/hanlp_custom.txt; 搜狗金融词库.txt n; CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt
3.配置文件做好以后,自定义词典不起作用问题
(1). 需要先删除custom文件夹下的所有bin文件,然后再使用hanlp,hanlp会自动加载一个新的bin文件,自定义词典就可以使用了。
貌似加载出的bin文件只有CustomDictionaryPath这一行配置中的第一个文件对应的bin,但是内容应该是将所有的自定义词典都包含了的。
(2). 如果自定义词典txt文件中存在含有空格的词, 比如说"16 金立债 nz 100"这种配置,回导致自定义词典加载程序将"16"认为是词,"金立债"认为是词性,"nz"认为是词频,然后出现Java报错:
java.lang.NumberFormatException: For input string: "nz"
虽然仍然生成了bin文件,但是实际上自定义词典中的所有词都是无法使用的。所以在生成自定义词典txt文件的过程中,一定要注意词中是否含有空格,是否符合"词 词性 词频"的格式。
(3)如何将含有空格的词加入自定义词典中:
CustomDictionary = JClass('com.hankcs.hanlp.dictionary.CustomDictionary')
CustomDictionary.add('攻城 狮')
相关推荐
jieba分词的自定义词典:使用jieba分词对语料进行分词之前,需要先载入,载入代码为jieba.load_userdict("userdict.txt")。
电子游戏相关自定义词典,共58万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
娱乐休闲明星电影相关自定义词典相关自定义词典,共35万词,每行一个词,不重复,明星名字,电影名,电视剧名等
Word2021中添加自定义词典的方法 Word2021中添加自定义词典的方法是指在Microsoft Word 2021软件中,用户可以根据自己的需要,添加自定义词典,以便更好地检查和校对文档中的拼写错误和语法错误。下面将详细介绍...
生活百科相关自定义词典,共67万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
社会科学相关自定义词典,共31万词,每行一个词,不重复
NLPIR分词工具由中科院开发,其支持用户自定义词典。这是在做商品评论情感分析时整理的2019个自定义词汇。
汉语言处理包中的data.zip数据,github上下载速度有点慢,这里提供下载。其他相关资源可从官网上下载jar包及配置文件。
经供参考
Microsoft Word 2021 自定义词典管理 在 Microsoft Word 2021 中,自定义词典是一个强大的功能,可以帮助用户自定义词典中添加和删除单词,以满足不同领域和行业的词汇需求。下面我们将详细介绍如何在 Word 2021 中...
2.2.添加hanlp分词自定义词典,在"/home/kuo/NLP/module/hanlp/data/dictionary/custom/"下 2.2.1.删除"CustomDictionary.txt.bin" 2.2.2.在“CustomDictionary.txt”中添加 ``` 数据库设计 n 4729 TNM分期 n ...
方法,自定义引入 hanLP.proerties 配置文件路径 环境要求 java 1.8 nodejs >= 6 安装 npm install hanlp --save 配置 配置文件: ,配置文件的作用是告诉HanLP数据包的位置,只需修改第一行 数据包: 使用 const Hanlp...
人文科学相关自定义词典,共152万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
自然科学相关的一些词,共有34万个不同的词,都是自然科学相关的
(自定义)单词词典dict.txt
HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法...
艺术设计相关自定义词典,共10万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
农林渔畜相关自定义词典,共6万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
jieba青春有你2自定义分词词典,青春有你2评论爬取,青春有你2视频饭圈自定义分词词典,jieba分词Python分词词典
工程应用相关自定义词典,共46万词,每行一个词,不重复,工程方面相关的词典