`
lzj0470
  • 浏览: 1243191 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

cwss bug 修复

    博客分类:
  • java
 
阅读更多
修复的BUG有如下:
1、当只有中文、字母和数字,没有任何其他字符的情况下,出现切词在1分钟之上的问题。
2、过滤一些特殊字符。如:┌┍┎┏┐┑┒┓┄┈├┝┞
3、没有被切到的字符串进行规则调整。之前是二二切词。现在是1到3个字符,是不会被切词。超过三个字符以上,按一一切词。
4、调整歧义词的规则。如:信息战。被切词为信息/息战。那么,现在可能被切词成信息/战。
5、挖掘新词。在没有被切词的字符串会被保存下来,保存路径是根目录/t.txt中。假设需要挖掘新词,那么请运行
List<String> noFindWordList = new ArrayList<String>();
newWordAnalyzer wordExcavate = new newWordAnalyzer(noFindWordList);
挖掘出有可能是新词会保存在noFindWordList中。
建议,挖掘出来的新词有可能不是一个通顺的词语。所以需要人工审核一下新词。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics