- 浏览: 97400 次
- 性别:
- 来自: 深圳
文章分类
最新评论
-
sulanyan29:
您 好,请问下android程序中调用以下两个命令,开启: s ...
linux 防火墙启动、添加规则 -
rainliu:
Can use jrockit monitor for IBM ...
java堆栈溢出 JRockit+Tomcat 实战调试
实现一个简单的分析器(Analyzer)的例子如下所示:]
一般在Tokenizer的子类实际执行词语的切分。需要设置的值有:和词相关的属性termAtt、和位置相关的属性offsetAtt。在搜索结果中高亮显示查询词时,需要用到和位置相关的属性。但是在切分用户查询词时,一般不需要和位置相关的属性。Tokenizer的子类需要重写incrementToken方法。通过incrementToken方法遍历Tokenizer分析出的词,当还有词可以获取时,返回true;已经遍历到结尾时,返回false。
基于属性的方法把无用的词特征和想要的词特征分隔开。每个TokenStream在构造时增加它想要的属性。在TokenStream的整个生命周期中都保留一个属性的引用。这样在获取所有和TokenStream实例相关的属性时,可以保证属性的类型安全。
在TokenStream.incrementToken()方法中,一个token流仅仅操作在构造方法中声明过的属性。例如,如果只要分词,则只需要TermAttribute。其他的属性,例如PositionIncrementAttribute或者PayloadAttribute都被这个TokenStream忽略掉了,因为这时不需要其他的属性。
虽然也可以通过termAtt对象中的term方法返回词,但这个方法返回的是字符串,直接返回字符数组的termBuffer方法性能更好。下面是采用正向最大长度匹配实现的一个简单的Tokenizer。
public class MyAnalyzer extends Analyzer { public TokenStream tokenStream(String fieldName, Reader reader) { //以空格方式切分Token TokenStream stream = new WhitespaceTokenizer(reader); //删除过短或过长的词,例如 in、of、it stream = new LengthFilter(stream, 3, Integer.MAX_VALUE); //给每个词标注词性 stream = new PartOfSpeechAttributeImpl.PartOfSpeechTagging Filter(stream); return stream; } }
一般在Tokenizer的子类实际执行词语的切分。需要设置的值有:和词相关的属性termAtt、和位置相关的属性offsetAtt。在搜索结果中高亮显示查询词时,需要用到和位置相关的属性。但是在切分用户查询词时,一般不需要和位置相关的属性。Tokenizer的子类需要重写incrementToken方法。通过incrementToken方法遍历Tokenizer分析出的词,当还有词可以获取时,返回true;已经遍历到结尾时,返回false。
基于属性的方法把无用的词特征和想要的词特征分隔开。每个TokenStream在构造时增加它想要的属性。在TokenStream的整个生命周期中都保留一个属性的引用。这样在获取所有和TokenStream实例相关的属性时,可以保证属性的类型安全。
protected CnTokenStream(TokenStream input) { super(input); termAtt = (TermAttribute) addAttribute(TermAttribute.class); }
在TokenStream.incrementToken()方法中,一个token流仅仅操作在构造方法中声明过的属性。例如,如果只要分词,则只需要TermAttribute。其他的属性,例如PositionIncrementAttribute或者PayloadAttribute都被这个TokenStream忽略掉了,因为这时不需要其他的属性。
public boolean incrementToken() throws IOException { if (input.incrementToken()) { final char[] termBuffer = termAtt.termBuffer(); final int termLength = termAtt.termLength(); if (replaceChar(termBuffer, termLength)) { termAtt.setTermBuffer(output, 0, outputPos); } return true; } return false; }
虽然也可以通过termAtt对象中的term方法返回词,但这个方法返回的是字符串,直接返回字符数组的termBuffer方法性能更好。下面是采用正向最大长度匹配实现的一个简单的Tokenizer。
public class CnTokenizer extends Tokenizer { private static TernarySearchTrie dic = new TernarySearchTrie("SDIC.txt"); //词典 private TermAttribute termAtt;// 词属性 private static final int IO_BUFFER_SIZE = 4096; private char[] ioBuffer = new char[IO_BUFFER_SIZE]; private boolean done; private int i = 0;// i是用来控制匹配的起始位置的变量 private int upto = 0; public CnTokenizer(Reader reader) { super(reader); this.termAtt = ((TermAttribute) addAttribute(TermAttribute.class)); this.done = false; } public void resizeIOBuffer(int newSize) { if (ioBuffer.length < newSize) { // Not big enough; create a new array with slight // over allocation and preserve content final char[] newnewCharBuffer = new char[newSize]; System.arraycopy(ioBuffer, 0, newCharBuffer, 0, ioBuffer. length); ioBuffer = newCharBuffer; } } @Override public boolean incrementToken() throws IOException { if (!done) { clearAttributes(); done = true; upto = 0; i = 0; while (true) { final int length = input. read(ioBuffer, upto, ioBuffer. length - upto); if (length == -1) break; upto += length; if (upto == ioBuffer.length) resizeIOBuffer(upto * 2); } } if (i < upto) { char[] word = dic.matchLong(ioBuffer, i, upto); // 正向最大长度匹配 if (word != null)// 已经匹配上 { termAtt.setTermBuffer(word, 0, word.length); i += word.length; } else { termAtt.setTermBuffer(ioBuffer, i, 1); ++i;// 下次匹配点在这个字符之后 } return true; } return false; } }
发表评论
-
微信群消息自动转发另一群
2017-09-04 18:46 11599周六,咱们小区业委会的秘书长娟姐找到我,说小区业主太多,一个群 ... -
java堆栈溢出 JRockit+Tomcat 实战调试
2012-07-24 10:19 27641. JRockit简介 Jrockit是Bea开发的符合J ... -
java.lang.OutOfMemoryError: unable to create new native thread
2012-02-12 16:09 3569今天系统突然收到错误日志: Feb 12, 2012 1:28 ... -
Lucene 分词解读(二)--Analyzer
2011-09-19 17:33 1347Lucene中的Analyzer 为了更好地搜索中文,在Lu ... -
Lucene 分词解读(一)
2011-09-19 17:31 979Lucene中的中文分词 Lucene中处理中文的常用方法有 ... -
三叉Trie树
2011-09-19 17:30 1214在一个三叉搜索树(Tern ... -
三叉Trie树
2011-09-13 16:20 6在一个三叉搜索树(Tern ... -
Lucene写自己的Analyzer
2011-09-13 15:57 44实现一个简单的分析器(Analyzer)的例子如下所示:] ... -
Lucene 分词解读(二)--Analyzer
2011-09-13 15:51 9Lucene中的Analyzer 为了更好地搜索中文,在Lu ... -
Lucene 分词解读(一)
2011-09-13 15:46 971Lucene中的中文分词 Lucene中处理中文的常用方法有 ... -
大并发搜索下关键词前缀匹配值得考虑的一种数据结构---Trie
2011-09-12 23:43 2317如果要实现一个能支撑 ... -
大并发搜索下值得考虑的一种数据结构---Trie
2011-09-12 23:42 0如果要实现一个能支撑大数据量并发搜索的引擎,一般不会采用luc ... -
cannot make any changes to the index (it was opened with readOnly = true)
2011-09-10 13:13 1390在调用IndexReader.open(final Di ... -
nginx 301 重定向 包括域名、目录、文件等方法 (二)
2011-09-09 14:24 10564nginx rewrite 伪静态配置参数详细说明 正则表达 ... -
nginx 301 重定向 包括域名、目录、文件等方法 (一)
2011-09-09 14:15 1440在网站建设中需要网页 ... -
查看Oracle表空间大小的方法
2011-09-08 10:16 818Oracle表空间大小的查看方法应该是我们都需要掌握的知识,下 ... -
[推荐] java生成csv文件
2011-08-15 10:08 1300import java.io.File; import ...
相关推荐
solr的IK分词器JAR及配置文件 jar包和配置文件的放置位置不一样,详情可搜索 IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。...org.wltea.analyzer.lucene.IKAnalyzer jar
Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器
lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
关于lucene的IKAnalyzer分词器以及与lucene4.3共同使用时发生的问题解决包
lucene-IKAnalyzer2012_u6-lukeall.rar压缩包中包含lucene-4.10.3依赖包、中文分词器IKAnalyzer2012_u6的依赖包和索引库查看工具lukeall-4.10.0.jar(将jar拷贝到相应的索引库中双击打开即可查看)。解压后就可以...
官网的lucene全文检索引擎工具包,下载后直接解压缩即可使用
该jar包之前只支持Lucene4.7.2,因为我自己的项目用到的是Lucene5.3.1,所以我自己重写了IKAnalyzer.java以及IKTokenizer.java,并且重新编译之后替换了之前的.class文件,现在可以适用于Lucene5.3.1
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
Lucene5.21+IkAnalyzer2012_V5入门案例,看不懂你来打我。
里面含有lucene全文检索所需要的一些jar包以及中文检索器IKAnalyzer
。。。。。。。中文分词库 IKAnalyzer For Lucene 5.2.1(适用Lucene 5.2.1)
导入: import net.teamhot.lucene.ThesaurusAnalyzer; import org.apache.lucene.analysis.Analyzer; 实例化: Analyzer analyzer = new ThesaurusAnalyzer();
IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词语言包,它是以Lucene为应用主体,结合词典分词和文法分析算法的中文词组组件。从3.0版本开始,IK发展为面向java的公用分词组件,独立Lucene项目,同时...
使用lucene-3.5和IKAnalyzer2012,实现基础的全文检索实现
Lucene4.7+IK Analyzer中文分词入门教程
基于lucene与IKAnalyzer的中文搜索demo及学习记录 Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎,部分文本分析引擎。 Lucene的目的是为软件开发人员提供一个简单易用的...
使用Lucene 分词器Jsceg IkAnalyzer jar包 ucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了...
java1.5环境下创建修改删除增加模糊查询索引文件包 使用Lucene3.01+IKAnalyzer3.2 范例java文件,有兴趣的可以看看 欢迎指教