一、ICTCLAS的介绍
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis
System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS
和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。
二、开始使用ICTCLAS进行分词
1.下载ictclasj
首先到ictclas的网站下载JAVA版本的ictclas——ictclasj。
下载地址
:http://ictclas.org/Down_OpenSrc.asp
2.在Eclipse中
新建项目并进行
配置
首先把
ictclasj解压缩,然后把
Data文件夹整个拷贝到
Eclipse项目的文件夹下,
而
bin目录下的
org文件夹整个拷贝到你
Eclipse项目的
bin目录下,把src目录下的org文件夹整个拷贝到
Eclipse项目
的src目录下。
3.测试分词结果
import org.ictclas4j.bean.SegResult;
import org.ictclas4j.segment.SegTag;
public class TextSegmentation {
public static void main(String[] args) {
String fileContent = "中国科学院计算技术研究所在多年研究基础上," +
"耗时一年研制出了ICTCLAS汉语词法分析系统";
SegTag segTag = new SegTag(1);// 分词路径的数目
SegResult segResult = segTag.split(fileContent.trim());
String classifyContent = segResult.getFinalResult();
System.out.println("分词结果\n"+classifyContent);
}
}
就是这样,我们可以得到输出的结果,并且带有词性的标注。
分词结果
中国科学院/n 计算/n 技术/n 研究所/n 在/c 多年/m 研究/n 基础/a 上/f ,/w 耗时/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 汉语/n 词法/n 分析/v 系统/a
三、关于可能出现的错误
1.越界错误
在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句
if(wis != null)
否则有时会报出越界错误
2.
“org.apache”
这个新建的测试类可能会提示错误:"The import org.apache cannot
be resolved",这是由于系统需要一个Apache的commons的jar包。
文章后面的附件中有
commons-lang-2.4.jar和停用词表(stopwords.rar)下载
。
(完)
create@2009-08-20
- 大小: 16.3 KB
分享到:
相关推荐
基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。
本代码用java实现了分词功能,包括分词和词性标注,里面有具体的说明文档,包括数据结构的设计,分词步骤,分词系统研究等。
这个包是Bory.Chan对ictclas4j进行修改,适用于lucene分词的工具包
在sinboy Java版分词系统上做了一些修改
最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas
ictclas4j java版实现,可供参考
北京师范大学的陈天在ICTCLAS的基础上开发的Java分词系统。 本软件的著作权归版权所有人所有,这里只是提供科学研究使用。
中文分词的java实现实例。包括词性标注和分词等功能。
采用Java实现分词系统,包括去除停用词,文本处理完毕后输出到txt
NULL 博文链接:https://lionsadness.iteye.com/blog/689910
ictclas4j for lucene 2.4 任何人不得将此用于商业用途,仅限个人学习研究之用.该开源项目遵循Apache License 2.0
在张华平博士的空间上直接下载的,用VS2010打开发现有几处BUG,主要是VC6.0转VC10.0的兼容问题,我上传的源码中,BUG已经恢复,代码现在能完美运行(包括分词词库)。
java开源分词系统主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典...
ictclas4j java版 for lucene
ICTCLAS 中文分词的elipse 工程
Java中lucene分词需要的ICTCLAS.dll文件和data词库
NULL 博文链接:https://liujunsong.iteye.com/blog/1561308
ICTCLAS 中文分词 中科院 ICTCLAS 中文分词 中科院
这个是中文分词开发版,源码,自己拿着用吧,效果很不错,ICTCLAS2011-SDK-release。好不好您说了算
ICTCLAS分词的实现案例,完整的使用java代码实现,可以直接导入工程运行。