最新文章列表

跟益达学Solr5之使用IK分词器

       在Solr中该如何使用IK分词器呢,这是小伙伴们问的频率比较高的一个问题,今晚特此更新此篇博客。其实之前我在其他博客里已经使用了IK分词 ...
lxwt909 评论(8) 有13019人浏览 2015-06-17 23:59

Lucene5学习之使用IKAnalyzer分词器

    之前的示例中,使用的是默认的StandardAnalyzer分词器,不能有效的进行中文分词,下面演示下如何在Lucene5.0中使用IKAnalyzer分词器。     首先下载IKA ...
lxwt909 评论(4) 有11198人浏览 2015-03-18 13:46

IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量

选手:IKanalyzer、ansj_seg、jcseg 硬件:i5-3470 3.2GHz 8GB win7 x64 比赛项目:1、搜索;2、自然语言分析 选手介绍:   1,IKanalyzer   IKanalyzer采用的是 ...
lies_joker 评论(1) 有10760人浏览 2015-01-06 13:05

IKAnalyzer中文进行分词

import org.apache.commons.io.IOUtils; import org.apache.commons.lang.StringUtils; import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; import org.apache.lucene.anal ...
yu120 评论(0) 有861人浏览 2014-07-27 08:10

配置solr+ikanalyzer+自定义词库

这里的版本为solr 3.5 + ikanalyzer 3.2.8 ik下载版本https://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer3.2.8%20bin.zip&can=2&q= 1. 配置solr/home/conf/schema.xml 加入<fieldType name=&qu ...
alleni123 评论(0) 有1557人浏览 2014-04-17 13:52

Solr添加IKAnalysis中文分词

1.下载中文分词器IKAnalyzer 地址:http://code.google.com/p/ik-analyzer/downloads/list   2.修改schema.xml文件,加入以下配置: <fieldType name="textik" class="solr.TextField" > & ...
kobe_hz 评论(0) 有1155人浏览 2013-11-18 10:42

Solr 查询,索引

环境 Solr: apache-solr-3.6.2 Tomcat:Tomcat 6.0 JDK: jdk1.6 pc : windows7 Solr的安装和配置 首先 安装 jdk --> 然后 tomcat 下载solr 下载地址:http://apache.etoak.com/lucene/solr/1.4.1/ 详情请见:http://wiki.apache.org ...
Luob. 评论(0) 有7018人浏览 2013-04-18 20:32

基于solr的网站索引架构(一)

关于solr的介绍和参数说明等,可参与网上资料。我这里就只分享下我在项目中使用solr的一些学习心得。 版本:由于使用到 中文分词IKanalry ,是solr4.0才有的新特性,所以使用solr4.0。 solr 官方地址:http://lucene.apache.org/solr/ (备注,项目使用时solr4.0正式版本还没有出来,所有我使用的solr4.0 Beta版本)   ...
yangjayup 评论(0) 有2257人浏览 2013-01-22 11:28

支持Solr4的IKTokenizerFactory

近日公司开始改造旧有的搜索系统,用到solr4,而且本人关注IK分词器比较多。发现IK 2012对TokenizerFactory不支持,缺乏这个支持的话,有很多自定义配置功能用不上。 故开发此代码,兼容Solr4分词功能 代码测试可用   附件附上对IK2012代码的二次编译jar包   IKTokenizerFactory   package org.wltea.analyz ...
henry2009 评论(1) 有4984人浏览 2012-12-26 00:59

IKAnalyzer3.2.8 chm javadoc

 IKAnalyzer3.2.8
飞天奔月 评论(0) 有1108人浏览 2012-10-01 23:29

IKAnalyzer 分词如何消歧

     个人认为分词最根本的有三个步骤:字典加载,根据一定策略分词,消歧。稍微介绍过分词程序的基本词典数据结构,接着看看如何进行消歧。分词不用多说,比较简单。      拿IKAnalyzer分词器为例,IKAnalyzer的切分方式是细粒度切分,当不需要智能处理时,其就把切出的所有词输出,但若启动了智能处理,那么接下来就是要进行消歧工作。      细粒度切出的词比较杂,但是经过智能处理后, ...
单眼皮大娘 评论(0) 有9819人浏览 2012-05-11 15:36

IKAnalyzer介绍

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 IKAnalyzer ...
zhanshenny 评论(0) 有1378人浏览 2011-12-15 15:40

IKAnalyzer分词单独使用例子

最近用了一下中文分词工具,网上说中科院研究的盘古分词比较好,找了一下没有java版本的,只有.net版本的,所以选用的IKAnalyzer分词工具. IKAnalyzer官方说有以下特点(我没有做过测试,不知是真是假): 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗 ...
lishanlin000 评论(2) 有5128人浏览 2011-07-05 18:00

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics