`

Ictclas的一个bug(转)

 
阅读更多

SegTag tag=new SegTag(4); 
String str="在最新的研究中,美国威斯康星大学麦迪逊分校的Brad Singer和加州州立工业大学的Kenneth Hoffman分析了来自塔希提岛(位于南太平洋)和德国西部的古代熔岩流(lava flow),以研究地球磁场过去的模式。"; 
System.out.println(str); 
SegResult res=tag.split(str); 
System.out.println(res.getFinalResult()); 

Exception in thread "main" java.lang.IndexOutOfBoundsException: Index: 8, Size: 8 
at java.util.ArrayList.RangeCheck(ArrayList.java:547) 
at java.util.ArrayList.get(ArrayList.java:322) 
at org.ictclas4j.segment.PosTagger.computePossibility(PosTagger.java: 723) 
at org.ictclas4j.segment.PosTagger.placeRecognize(PosTagger.java:594) 
at org.ictclas4j.segment.PosTagger.recognition(PosTagger.java:82) 
at org.ictclas4j.segment.SegTag.split(SegTag.java:92) 
at forumIndexer.test.main(test.java:31) 

 

如果改成SegTag tag=new SegTag(1)就没有问题。SegTag的参数segPathCount好像是候选的路径数量。我原来改成10,出现异常,改成123都没有问题。大于4就不行了。

出错的代码是:

for (int i = startPos; i < startPos + length && sns != null; i++) { 
SegNode sn = sns.get(i); 

 

下标越界了。然后我在for里加上条件 i<sns.size(); 就没有问题。但因为我没有仔细阅读代码,不知道这样的修改会不会带来新的bug

 

 

 

分享到:
评论

相关推荐

    ICTCLAS5.0 Delphi2010接口源码

    这是本人根据其C接口文件修改测试而成的Delphi2010针对ICTCLAS5.0的dll库头文件,内含一个验证过的.pas文件,下载后直接整合到项目中即可使用。本来自用,考虑到互联网的分享精神,为了不让后来者走弯路特独家发送!...

    ICTCLAS2010

    ICTCLAS2010. ICTCLAS2010 ICTCLAS2010 ICTCLAS2010 ICTCLAS2010

    ICTCLAS50综合包

    ICTCLAS50综合包ICTCLAS50综合包ICTCLAS50综合包

    ICTCLAS2013

    张博士先后倾力打造十余年,内核升级10次,全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。 NLPIR汉语分词系统(又名...

    ICTCLAS分词系统研究

    ICTCLAS 中文分词 中科院 ICTCLAS 中文分词 中科院

    ICTCLAS的Java改造版本

    可惜没有官方正式的java版本,有一个网友sinbo自己改写了一个java版本。 但在使用过程中发现问题很多。其中最大的问题,就是数据结构不够合适,统统采用arraylist来存储,结果造成了可悲的内存溢出问题。 我觉得这...

    ICTCLAS50 Delphi调用例程

    Delphi下调用ICTCLAS50的参考方法

    ICTCLAS源码解析

    ICTCLAS源码解析

    基于lucene3.0的ICTCLAS实现

    ictclas中文分词是中科院研发的一款分词工具,是当前最好的分词工具。本项目实现ictclas分词与lucene的结合,提高lucene的中文分词效果。

    ICTCLAS50分词系统API-Delphi

    delphi下调用ICTCLAS50的接口文件

    ICTCLAS2008

    ICTCLAS2008是最新版的分词系统,在以前的基础上增加了分词效果!

    Java+ICTCLAS

    完成的ICTCLAS项目,可以为初学中文分词的同学提供一个学习的机会。本人也是初学。

    中科院ICTCLAS分词源代码

    这是中科院的ICTCLAS的中文分词算法的源代码,可以实现中文分词,词性标注等功能。绝对好用!

    ictclas4j

    ictclas中科院分词

    中科院分词组件(ICTCLAS)Asp.net版

    从网络上的一个开源中科院分词(ICTCLAS)系统.netWinForm版(c++/cli)改写,此为Asp.net版。里面带有例子。

    ICTCLAS 免费共享版

    为http://ictclas.org/所发布软件的免费共享版,此版为JNI版,没有使用时间限制,

    中科院分词2011最新版免费版源码ICTCLAS

    在张华平博士的空间上直接下载的,用VS2010打开发现有几处BUG,主要是VC6.0转VC10.0的兼容问题,我上传的源码中,BUG已经恢复,代码现在能完美运行(包括分词词库)。

    ictclas4j分词工具包

    最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas

    ICTCLAS java中文分词工程

    ICTCLAS 中文分词的elipse 工程

    ICTCLAS2009版中文分词系统

    多种标注级的选择,系统可供选择的标注级有:计算所一级标注级,计算所二级标注集,北大一级标注集,北大二级标注集。 关键词提取 自动抽取出能很好地代表文档主题的若干个词或短语。关键词抽取技术广泛应用于信息...

Global site tag (gtag.js) - Google Analytics