一、Ansj
1、利用DicAnalysis可以自定义词库:
2、但是自定义词库存在局限性,导致有些情况无效:
比如:“不好用“的正常分词结果:“不好,用”。
(1)当自定义词库”好用“时,词库无效,分词结果不变。
(2)当自定义词库
“不好用”时,分词结果为:“不好用”,即此时自定义词库有效。
3、由于版本问题,可能DicAnalysis, ToAnalysis等类没有序列化,导致读取hdfs数据出错
此时需要继承序列化接口
1|case class myAnalysis() extends DicAnalysis with Serializable
2|val seg = new myAnalysis()
二、HanLP
同样可以通过CustomDictionary自定义词库:
但是在统计分词中,并不保证自定义词典中的词一定被切分出来,因此用户可在理解后果的情况下通过
1|StandardTokenizer.SEGMENT.enableCustomDictionaryForcing(true)强制生效
并发问题:
CustomDictionary是全局变量,不能在各节点中更改,否则会出现并发错误。
但是HanLP.segment(sentence),只有一个参数,不能指定CustomDictionary,导致在各个excutors计算的时候全局CustomDictionary无效。
由于CustomDictionary是全局变量,因此我采用一个方式:每个分区都对CustomDictionary加锁并添加一次词库,性能影响较小:
原文链接:https://blog.csdn.net/weixin_40901056/article/details/89349095
相关推荐
最新2015年的java工程的ansj中文分词工具 myeclipse工程
ansj elasticsearch 分词
Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”。 内容简介:http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家...
用途1 新建项目——>将ansj_seg-5.1.5.jar、nlp-lang-1.7.7.jar导入项目中。即可使用。 用途2 示例程序 1.1 将程序源码导入到Myeclipse中 1.2 此时,程序中自带的jar包路径可能不正确,须将两个jar包删除,然后...
这是目前来说最新的ansj分词jar包,导入即可使用
aAnsj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟
Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。 ...
springMVC+mybatis+自动摘要+ansj中文分词+关键词匹配规则等等
ansj分词配置jar包,结合nlp-lang的配置jar使用。
springMVC+ansj中文分词+多线程+mybatis+redis+多库等等
ansj5.0.1分词jar包
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能
具体描述请看这里http://ansjsun.github.io/ansj_seg/ 这是最新的ANSJ版本,需要配合另一个tree-split jar包使用,请从这里下载:http://maven.ansj.org/org/ansj/
ANSJ分词JAR包,Github上面已经找不到了,这是孙健老师通过QQ发给我的,很是感谢,关于ANSJ更多请看 http://blog.csdn.net/blogdevteam/article/details/8148451
ANSJ最新版,把两个包添加到工程下,另外创建library文件夹,加入两个字典文件,最后把library.properties添加到src目录下即可。感谢孙健老师。
ansj elasticsearch 独立分词插件
自己整理的ansj中文分词器加载自定义crf教程
研究ansj代码之后,所做的思维导图。如需转载,请注明出处。
java分词测试程序,调用开源分词工具ansj测试代码,效果可以