Ansj与hanlp分词工具对比 - hadoop小学生 - ITeye博客

`

adnb34g

浏览: 76850 次

最近访客更多访客>>

adonis_yang

海麻雀

小taomi_77

zhangly2011

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Ansj与hanlp分词工具对比

博客分类：

人工智能，机器学习

阅读更多

一、Ansj

1、利用DicAnalysis可以自定义词库：

2、但是自定义词库存在局限性，导致有些情况无效：

比如：“不好用“的正常分词结果：“不好，用”。

（1）当自定义词库”好用“时，词库无效，分词结果不变。

（2）当自定义词库

“不好用”时，分词结果为：“不好用”，即此时自定义词库有效。

3、由于版本问题，可能DicAnalysis, ToAnalysis等类没有序列化，导致读取hdfs数据出错

此时需要继承序列化接口

1|case class myAnalysis() extends DicAnalysis with Serializable

2|val seg = new myAnalysis()

二、HanLP

同样可以通过CustomDictionary自定义词库：

但是在统计分词中，并不保证自定义词典中的词一定被切分出来，因此用户可在理解后果的情况下通过

1|StandardTokenizer.SEGMENT.enableCustomDictionaryForcing(true)强制生效

并发问题：

CustomDictionary是全局变量，不能在各节点中更改，否则会出现并发错误。

但是HanLP.segment(sentence)，只有一个参数，不能指定CustomDictionary，导致在各个excutors计算的时候全局CustomDictionary无效。

由于CustomDictionary是全局变量，因此我采用一个方式：每个分区都对CustomDictionary加锁并添加一次词库，性能影响较小：

原文链接：https://blog.csdn.net/weixin_40901056/article/details/89349095

查看图片附件

分享到：

自然语言处理工具中的中文分词器介绍 | python使用jieba实现中文文档分词和去停用 ...

2019-06-21 13:52
浏览 319
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

ansj中文分词工具: 最新2015年的java工程的ansj中文分词工具 myeclipse工程

ansj elasticsearch 分词插件: ansj elasticsearch 分词

Ansj中文分词（强大）: Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具，目标是“准确、高效、自由地进行中文分词”。内容简介：http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家...

Ansj分词工具包: 用途1 新建项目——>将ansj_seg-5.1.5.jar、nlp-lang-1.7.7.jar导入项目中。即可使用。用途2 示例程序 1.1 将程序源码导入到Myeclipse中 1.2 此时，程序中自带的jar包路径可能不正确，须将两个jar包删除，然后...

ansj分词工具所需jar包（最新）: 这是目前来说最新的ansj分词jar包，导入即可使用

ANSJ中文分词器: aAnsj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟

Ansj中文分词: Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现，具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右（Mac Air下测试），准确率能达到96%以上。 ...

springMVC+ansj中文分词: springMVC+mybatis+自动摘要+ansj中文分词+关键词匹配规则等等

ansj分词ansj_seg-5.1.5.jar: ansj分词配置jar包，结合nlp-lang的配置jar使用。

ansj分词、关键词匹配: springMVC+ansj中文分词+多线程+mybatis+redis+多库等等

ansj5.0.1 分词jar包: ansj5.0.1分词jar包

ansj中文分词器源码: 分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取，自动摘要，关键字标记等功能

分词工具ANSJ 1.3版本: 具体描述请看这里http://ansjsun.github.io/ansj_seg/ 这是最新的ANSJ版本，需要配合另一个tree-split jar包使用，请从这里下载：http://maven.ansj.org/org/ansj/

ANSJ分词JAR包: ANSJ分词JAR包，Github上面已经找不到了，这是孙健老师通过QQ发给我的，很是感谢，关于ANSJ更多请看 http://blog.csdn.net/blogdevteam/article/details/8148451

ANSJ分词工具最新版: ANSJ最新版，把两个包添加到工程下，另外创建library文件夹，加入两个字典文件，最后把library.properties添加到src目录下即可。感谢孙健老师。

ansj elasticsearch 独立分词插件: ansj elasticsearch 独立分词插件

ansj中文分词器加载自定义crf教程.docx: 自己整理的ansj中文分词器加载自定义crf教程

ansj分词_思维导图: 研究ansj代码之后，所做的思维导图。如需转载，请注明出处。

TestFenci.zip_ansj_分词: java分词测试程序，调用开源分词工具ansj测试代码，效果可以

Global site tag (gtag.js) - Google Analytics