ICTCLAS的java接口中有这个方法:
/**
对一串中文文本进行分词
*/
public synchronized native String paragraphProcess(String sParagraph);
大多数情况下该方法可以对传入的文本进行分词操作,但是对于一些特殊字符会抛出异常,比如如下的字符:
String str="[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][下一页]";
会打印如下的异常:
A fatal error has been detected by the Java Runtime Environment:
#
# EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x3ae6c4e4, pid=2804, tid=2756
#
# JRE version: 6.0_22-b04
# Java VM: Java HotSpot(TM) Client VM (17.1-b03 mixed mode windows-x86 )
# Problematic frame:
# C [ICTCLAS.dll+0xc4e4]
#
# An error report file with more information is saved as:
# D:\yourproject\hs_err_pid2804.log
#
# If you would like to submit a bug report, please visit:
# http://java.sun.com/webapps/bugreport/crash.jsp
# The crash happened outside the Java Virtual Machine in native code.
# See problematic frame for where to report the bug.
# [error occurred during error reporting , id 0xc0000005]
原因:这是ICTCLAS.dll的异常,所以java中的try catch块无法截获,致使jvm(Java虚拟机强行关闭)。
解决办法:当使用ICTCLAS进行分词前,最好对文本进行一些预处理(如去除多余空格、文本不要太长等)。
分享到:
相关推荐
在sinboy Java版分词系统上做了一些修改
中科院的ICTCLAS的java接口,在MYECLIPSE或ECLIPSE中可以直接导入IMPORT,就可以用了
ICTCLAS系统的vc++和java 源代码和调用示例
ICTCLAS 中文分词的elipse 工程
北京师范大学的陈天在ICTCLAS的基础上开发的Java分词系统。 本软件的著作权归版权所有人所有,这里只是提供科学研究使用。
采用Java实现分词系统,包括去除停用词,文本处理完毕后输出到txt
完成的ICTCLAS项目,可以为初学中文分词的同学提供一个学习的机会。本人也是初学。
发现中科院提供的ictclas工具是比较不错的。 可惜没有官方正式的java版本,有一个网友sinbo自己改写了一个java版本。 但在使用过程中发现问题很多。其中最大的问题,就是数据结构不够合适,统统采用arraylist来...
中文分词的java实现实例。包括词性标注和分词等功能。
ICTCLAS50_Windows_64_JNI ICTCLAS的API,文档等
张华平博士力作,免费中文分词软件编程接口文档。
对ICTCLAS源码进行了详尽的分析,对系统的理解相当有帮助。
ICTCLAS是个不错的中文分词类库,可惜其文档不全,声称能支持Delphi但是又没有提供接口文档。这是本人根据其C接口文件修改测试而成的Delphi2010针对ICTCLAS5.0的dll库头文件,内含一个验证过的.pas文件,下载后直接...
中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典,Java调用
ictclas4j java版 for lucene
ICTCLAS 中科院分词 在java上的实现demo 包含了ICTCLAS接口开发文档
NULL 博文链接:https://liujunsong.iteye.com/blog/1561308
java实现中科大ICTCLAS2015分词,源代码和jar包之前都有提供。
JAVA调用ICTClAS多线程的示例文档
ictclas4j java版实现,可供参考