`
xwater
  • 浏览: 4022 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

jcseg中文分词器去除不想要的分词

阅读更多
今天观察我的网站省淘网时,发现好多相关搜索结果,都是关键词“的”的命中。
一开始想自己把字符串里的“的”replace掉得了,但是一想,jcseg应该有这个功能吧。
翻阅了说明文档后,最终发现,默认的配置文件没有开启自动过滤停止词(其实就是去掉不想要的分词)

具体设置:

默认的配置文件在jcseg-core-1.9.1.jar包里:jcseg.properties

#是否自动过滤停止词(0 关闭, 1 开启)
jcseg.clearstopword=1

这个配置默认是0,改成1,重启后就开始了。

具体的停止词,在词库文件:lib/lexicon/lex-stopword.lex

自己想要的可以加,我加了一些符号。
分享到:
评论

相关推荐

    Jcseg中文分词器 v2.6.3.zip

    Jcseg中文分词器 v2.6.3.zip

    jcseg 中文分词插件

    打好包的jcseg分词器插件,解压到plugins下,修改plugin-descriptor.properties 中的es版本号,重启即可

    Jcseg中文分词器 v2.6.2

    为您提供Jcseg中文分词器下载,Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http...

    Jcseg支持lucene3的分词器

    在网上找了好半天也没找到jcseg分词器对lucene 3的支持,自己参考这对lucene4的支持写的,希望对大家有用。

    Jcseg汉语分词工具

    Jcseg是一个开源的汉语分词工具,由java语言开发,准确率高达百分之九十八,本程序无需配置,可以直接运行,谢谢!

    Jcseg+Java中文分词器

    Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的...

    支持solr5.x和lucene5.x的jcseg分词器,亲测可用!

    基于狮子的心的jcseg分词器,并优化部分功能,完美支持solr5.x和lucene5.x,本人是solr5.3,亲测可用。jcseg.properties使用原生的即可。本人还有pinyin拼音分词器资源,可以查看我的资源里。

    Jcseg中文分词器-其他

    Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的...

    jcseg java中文分词

    friso是使用c语言开发的一个中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。

    中文分词器jcseg支持人名识别mmseg四种过滤算法分词准确率达到了97%以上。支持自定义词库。在lexicon文件夹下可以随便添加删除更改词库和词库内容并且对词库进行了分类.zip

    中文分词器jcseg支持人名识别mmseg四种过滤算法分词准确率达到了97%以上。支持自定义词库。在lexicon文件夹下可以随便添加删除更改词库和词库内容并且对词库进行了分类.zip,太多无法一一验证是否可用,程序如果跑不...

    jcseg分词需要的jar

    jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。jcseg目前最高版本jcseg目前最高版本jcseg目前...

    es2.3.4安装jcseg分词插件

    es2.3.4安装jcseg分词插件,里面包含安装步骤,及最重要的异常错误解决方案.经过多次的实际应用,安全可靠.不用谢,我热愛滑铲.

    elasticsearch-ik中文分词器7.6.2.zip

    用于elasticsearch7.6.2配套的中文分词器,欢迎大家使用 下面是它的描述,用于elasticsearch7.6.2配套的中文分词器,

    刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词

    刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词...

    c#中文分词器.rar

    c#中文分词器.rarc#中文分词器.rarc#中文分词器.rarc#中文分词器.rarc#中文分词器.rarc#中文分词器.rarvvc#中文分词器.rarc#中文分词器.rarc#中文分词器.rarc#中文分词器.rarc#中文分词器.rar

    elasticsearch的ik中文分词器

    elasticsearch的ik中文分词器,安装好elasticsearch后还需安装中文分词器

    使用IK Analyzer实现中文分词之Java实现

    IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版... 在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...

    基于 Java 的中文分词器分词效果评估对比项目

    基于 Java 的中文分词器分词效果评估对比项目。它主要实现了以下功能: 分词效果评估:用户可以通过程序对比不同分词器的分词结果,以及计算分词速度、行数完美率、行数错误率、字数完美率、字数错误率等指标。 ...

    ik中文分词词库35万中文分词词库(含电商)

    ik中文分词词库35万中文分词词库(含电商)

Global site tag (gtag.js) - Google Analytics