`

Ansj与hanlp分词工具对比

 
阅读更多

 

一、Ansj

1、利用DicAnalysis可以自定义词库:

 



 

2、但是自定义词库存在局限性,导致有些情况无效:

比如:“不好用“的正常分词结果:“不好,用”。

 

1)当自定义词库”好用“时,词库无效,分词结果不变。

2)当自定义词库

“不好用”时,分词结果为:“不好用”,即此时自定义词库有效。

 

3、由于版本问题,可能DicAnalysis, ToAnalysis等类没有序列化,导致读取hdfs数据出错

此时需要继承序列化接口

  

 1|case class myAnalysis() extends DicAnalysis with Serializable  

   2|val seg = new myAnalysis()

 

二、HanLP

同样可以通过CustomDictionary自定义词库:

 



 

但是在统计分词中,并不保证自定义词典中的词一定被切分出来,因此用户可在理解后果的情况下通过

 

 1|StandardTokenizer.SEGMENT.enableCustomDictionaryForcing(true)强制生效

 

并发问题:

CustomDictionary是全局变量,不能在各节点中更改,否则会出现并发错误。

但是HanLP.segment(sentence),只有一个参数,不能指定CustomDictionary,导致在各个excutors计算的时候全局CustomDictionary无效。

由于CustomDictionary是全局变量,因此我采用一个方式:每个分区都对CustomDictionary加锁并添加一次词库,性能影响较小:

 



 

原文链接:https://blog.csdn.net/weixin_40901056/article/details/89349095

 

  • 大小: 74.4 KB
  • 大小: 17.9 KB
  • 大小: 96.4 KB
分享到:
评论

相关推荐

    ansj中文分词工具

    最新2015年的java工程的ansj中文分词工具 myeclipse工程

    ansj elasticsearch 分词插件

    ansj elasticsearch 分词

    Ansj中文分词(强大)

    Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”。 内容简介:http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家...

    Ansj分词工具包

    用途1 新建项目——>将ansj_seg-5.1.5.jar、nlp-lang-1.7.7.jar导入项目中。即可使用。 用途2 示例程序 1.1 将程序源码导入到Myeclipse中 1.2 此时,程序中自带的jar包路径可能不正确,须将两个jar包删除,然后...

    ansj分词工具所需jar包(最新)

    这是目前来说最新的ansj分词jar包,导入即可使用

    ANSJ中文分词器

    aAnsj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟

    Ansj中文分词

    Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。 ...

    springMVC+ansj中文分词

    springMVC+mybatis+自动摘要+ansj中文分词+关键词匹配规则等等

    ansj分词ansj_seg-5.1.5.jar

    ansj分词配置jar包,结合nlp-lang的配置jar使用。

    ansj分词、关键词匹配

    springMVC+ansj中文分词+多线程+mybatis+redis+多库等等

    ansj5.0.1 分词jar包

    ansj5.0.1分词jar包

    ansj中文分词器源码

    分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能

    分词工具ANSJ 1.3版本

    具体描述请看这里http://ansjsun.github.io/ansj_seg/ 这是最新的ANSJ版本,需要配合另一个tree-split jar包使用,请从这里下载:http://maven.ansj.org/org/ansj/

    ANSJ分词JAR包

    ANSJ分词JAR包,Github上面已经找不到了,这是孙健老师通过QQ发给我的,很是感谢,关于ANSJ更多请看 http://blog.csdn.net/blogdevteam/article/details/8148451

    ANSJ分词工具最新版

    ANSJ最新版,把两个包添加到工程下,另外创建library文件夹,加入两个字典文件,最后把library.properties添加到src目录下即可。感谢孙健老师。

    ansj elasticsearch 独立分词插件

    ansj elasticsearch 独立分词插件

    ansj中文分词器加载自定义crf教程.docx

    自己整理的ansj中文分词器加载自定义crf教程

    ansj分词_思维导图

    研究ansj代码之后,所做的思维导图。如需转载,请注明出处。

    TestFenci.zip_ansj_分词

    java分词测试程序,调用开源分词工具ansj测试代码,效果可以

Global site tag (gtag.js) - Google Analytics