`

ictclas 相关的中文分词介绍

阅读更多

转载自: http://percyboy.cnblogs.com/

中文切词领域,中科院开发的 ICTCLAS 占有重要一席,号称是世界上最好的中文分词系统。ICTCLAS 初期曾发布过一个免费版本(C++),采用“自然语言处理开放资源许可证”公开。后来走向商业开发道路,最新版本是 ICTCLAS 2010,提供有 C++, Java, C# 等多种版本可供购买。

从 ICTCLAS Free 版有一些衍生版本:ictclas4j 是张新波(sinboy)移植的 Java 版本,SharpICTCLAS 是吕震宇移植的 C# 版本。这两个版本也采用“自然语言处理开放资源许可证”。

2009年中科院高先生针对 Lucene 用 Java 重写了 ICTCLAS 代码,采用 Apache Licence 2.0 协议公开了源码和词库数据,目前已并入了 Lucene contrib 代码树中。我花了些时间将这个版本转写为 C# 版。

下图表示了这些版本间的关系:(红色为商业软件,紫色为“自然语言处理开放资源许可证”,绿色为“Apache Licence 2.0”)

目前讨论较多的切词器,如庖丁解牛盘古分词等,多采用查词典的方式切分,词典质量决定切分效果。

ICTCLAS 切词基于概率统计的语料库(高先生称之为“智能词典”),算法基于“层叠式隐含马尔可夫模型”(Hierarchical Hidden Markov Model, HHMM)。仅就算法而言,应该说这是一种较为先进的方法,Google 研究员也说“统计语言模型比任何已知的借助某种规则的解决方法都有效”(数学之美系列)。

但是高先生贡献的版本(包括我转写的版本),从 ICTCLAS 中去除了一些功能,如:词性标注、人名识别、日期识别等等,特别是后两项,切分结果在这方面不是很理想。另外,“智能词典”里存储的是各种词汇出现的概率,是通过机器训练得到的,难以采用人工方式维护,这也是一个不方便之处。

分享到:
评论

相关推荐

    ICTCLAS java中文分词工程

    ICTCLAS 中文分词的elipse 工程

    ICTCLAS分词系统研究

    ICTCLAS 中文分词 中科院 ICTCLAS 中文分词 中科院

    浅谈ICTCLAS中科院中文分词

    中科院分词,最流行的中文分词,我的总结。

    ICTCLAS30汉语分词

    中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...

    利用ICTCLAS实现的中文分词

    ICTCLAS 的中文分词,用的是sql数据库,自己把数据库部分去掉就可以运行

    ICTCLAS中文分词系统C++代码

    ICTCLAS中文分词系统C++代码,内容很强大,很好。ICTCLAS中文分词系统是目前世界最好的分词系统

    ICTCLAS中文分词系统

    中关村开发的中文分词系统,版本为当前最新,支持32位操作系统

    中文分词包——ictclas4j_0.9.1.jar

    基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。

    中科院ICTCLAS分词源代码

    这是中科院的ICTCLAS的中文分词算法的源代码,可以实现中文分词,词性标注等功能。绝对好用!

    ictclas4j中文分词测试

    NULL 博文链接:https://lionsadness.iteye.com/blog/689910

    ICTCLAS2009版中文分词系统

    System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展 用户可以动态增加、删除用户词典中的...

    ICTCLAS中文分词和关键字匹配

    本程序使用ICTCLAS中文分词系统,支持中文分词,同时实现高效率的关键字匹配,使用的分词系统支持用户自定义词典,并支持GBK和UTF-8编码,在Linux系统上运行,同时避免某些因证书引起的问题,适用于个人研究,因商业...

    最新版ICTCLAS中文分词软件——2014版本

    中科院最新版中文分词软件。 2014版,各种材料齐全,包含代码、文档等等;希望大家爱用。 以备不时之需。

    ICTCLAS2016分词系统

    最好的中文分词算法,新鲜出炉,不过里面的文件是2014的

    ICTCLAS f分词工具

    中科院 北大 实现的 一级二级分词算法简单方便 只是感觉词源不够丰富 但是幸运的是可以自己添加新词啊

    中科院分词2011最新版免费版源码ICTCLAS

    在张华平博士的空间上直接下载的,用VS2010打开发现有几处BUG,主要是VC6.0转VC10.0的兼容问题,我上传的源码中,BUG已经恢复,代码现在能完美运行(包括分词词库)。

    ictclas4j开源分词系统

    java开源分词系统主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典...

    ICTCLAS中文分词论文收集

    基于N-最短路径方法的中文词语粗分模型 基于多层隐马模型的汉语词法分析研究 基于角色标注的中国人名自动识别研究 基于角色标注的中文机构名识别

    中文分词ictclas的Java改造版本

    NULL 博文链接:https://liujunsong.iteye.com/blog/1561308

    ICTCLAS分词工具C++源码

    中科院ICTCLAS分词工具C++源码,用于对中文文本的分词

Global site tag (gtag.js) - Google Analytics