lucene等搜索引擎解析
收藏

lucene等搜索引擎解析

分享到: Sina Tec

最近更新文章

nutch1.0在eclipse下的成功编译要注意事项

有以下要点要注意: 1、在WINDOWS的环境变量中要正确指定JDK目录 2、build.xml编译报错, Nutch\nutch-0.9\build.xml:61: Specify at least one source--a file or resource collection. 将下面几行的前几行(从61行开始直到下面的<copy todir="${conf.dir} ...
deepfuture 评论(0) 有2076人浏览 2009-12-23 20:01

为Nutch 1.0添加JE中文分词

先下载Nutch 1.0的源文件: svn co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0 更改查询语法解析部分: 改变tokenize的方式(原来为中文单字识别) modify “src/java/org/apache/nutch/analysis/NutchAnalysis.jj”l ...
deepfuture 评论(1) 有2486人浏览 2009-12-23 19:52

ubuntu下nutch-1.0的安装和配置错误排除

一、安装JDK(笔者推荐使用原生的方式安装SUN-JDK6 一、保证TOMCAT的正常安装 二,下载nutch-1.0,解压后,并将它拷贝到/opt/目录下。cd /opt/nutch-1.0root@fjadmin-webcrawler:/opt/nutch-1.0# sh bin/nutch crawl一般来说没有设置JAVA_HOME等环境,会报以下错误:[: 72: ==: unex ...
deepfuture 评论(0) 有5873人浏览 2009-12-23 19:51

nutch-JE分词

先下载Nutch 1.0的源文件: co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0 更改查询语法解析部分: 改变tokenize的方式(原来为中文单字识 ...
deepfuture 评论(0) 有1363人浏览 2009-12-23 19:39

Nutch 的配置

Nutch 的配置文件几乎覆盖了Nutch 所有的功能。以前在网上看到过一个关于Nutch-default.XML 配置项解释,地址我没收藏,和本文配合起来看,会更好一些。这里我也不打算对其配置文件中的每一项做解释,如果在下面的解释里找不到想要的内容,请发表评论,我会回复的。 <property><name>http.max.delays</name><v ...
deepfuture 评论(0) 有2303人浏览 2009-12-23 19:32

lucene入门-复杂索引建立

一个document包括多个field,以一个document为了一个单元建立索引,下例包括2个document: package bindex;import java.io.IOException; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apac ...
deepfuture 评论(0) 有1258人浏览 2009-12-23 19:26

lucene入门-索引网页

  package bindex;import java.io.File;import tool.FileText;import java.io.IOException; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.index ...
deepfuture 评论(1) 有1944人浏览 2009-12-23 19:21

lucene入门-索引目录下的所有网页以及索引检索

  package bindex;import java.io.File;import tool.FileText;import tool.FileList;import java.io.*; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.l ...
deepfuture 评论(0) 有1637人浏览 2009-12-23 19:15

lucene-使用CJKTokenizer分词

二分法分词 package busetoken; import org.apache.lucene.analysis.cjk.CJKTokenizer;import org.apache.lucene.analysis.Token; import java.io.IOException;import java.io.StringReader; public class UseCjk { / ...
deepfuture 评论(0) 有2852人浏览 2009-12-23 19:12

lucene-使用自带中文分词器

使用lucene内自带的,在contrib/analyzerslucene-analyzers-2.9.0.jar 即单字分析 package busetoken; import java.io.IOException;import java.io.StringReader; import org.apache.lucene.analysis.Token;import org.apache. ...
deepfuture 评论(0) 有2810人浏览 2009-12-23 19:01

lucene-NGram中文分词

NGram(综合了单词切分和二分法) package busetoken; import java.io.IOException;import java.io.StringReader; import org.apache.lucene.analysis.Token;import org.apache.lucene.analysis.ngram.NGramTokenizer; publi ...
deepfuture 评论(0) 有2702人浏览 2009-12-23 19:00

lucene入门-简单的WEB搜索界面

使用servlet和tomcat6,注意事项: 1,将lucene-core-2.9.0.jar复制到WEB-INF\lib 2,按照tomcat的要求组织好目录 3,编写好web.xml 4,编译产生的SluceneSearcher.class类拷到WEB-INF\classes\bservlet web.xml配置如下: <?xml version="1.0&quo ...
deepfuture 评论(0) 有2146人浏览 2009-12-23 18:46

lucene入门-使用JE中文分词

基于词库的算法分词,是较好的中文分词器 package busetoken;import java.io.IOException; import jeasy.analysis.MMAnalyzer; public class UseJe { /*** @param args* @throws IOException */public static void main(String[] arg ...
deepfuture 评论(0) 有1784人浏览 2009-12-23 18:45

lucene入门-解析pdf(使用pdfbox解析英文PDF)

下载pdfbox http://incubator.apache.org/pdfbox/ 下载相关的jar http://commons.apache.org/downloads/download_logging.cgi 引入external下的所有包 英语PDF: package extract;import java.io.FileWriter;import java.io.IOE ...
deepfuture 评论(0) 有2288人浏览 2009-12-23 18:40

lucene入门-解析word文档

下载: http://mirrors.ibiblio.org/pub/mirrors/maven2/org/textmining/tm-extractors/0.4/ java代码如下: package extract; import java.io.*;import org.textmining.text.extraction.WordExtractor; public class Ex ...
deepfuture 评论(0) 有1976人浏览 2009-12-23 18:39

lucene入门-解析pdf(使用xpdf解析中文PDF详细过程)

下载xpdf和xpdf-chinese-simplified.tar.gz ,然后将xpdf-chinese-simplified.tar.gz解压到xpdf所在的目录形成一个子目录 http://www.foolabs.com/xpdf/download.html The following packages are available: Arabic: xpdf-arabic.tar. ...
deepfuture 评论(0) 有7557人浏览 2009-12-23 17:27

lucene入门-使用pdfbox解析中文PDF

很多人使用 PDFBOX无法解析中文PDF,其实是在编程时没有指定字符集导致的,指定字符集后,pdfbox是完全可以解析中文PDF的 下载JAR文件 下载pdfbox http://incubator.apache.org/pdfbox/ 下载相关的jar http://commons.apache.org/downloads/download_logging.cgi 引入exter ...
deepfuture 评论(1) 有6339人浏览 2009-12-23 17:26

lucene-解析xml

1、安装DOM4j http://www.dom4j.org/ 2、安装jaxen http://jaxen.org/releases.html 3、代码 package extract;import java.io.*;import org.dom4j.*;import org.dom4j.io.*;import java.util.*; public class XmlExtract ...
deepfuture 评论(0) 有1675人浏览 2009-12-23 17:19

lucene-使用htmlparser解析未设定编码页面

一、 1、使用htmlparser解析网页,如果页面没有设定编码,那么htmlparser将会iso-8859-1和编码方式解析网页 2、本例假定网页没有指定编码,将http://hao.360.cn/ ...
deepfuture 评论(0) 有12030人浏览 2009-12-23 17:17

lucene-使用htmlparser解析有编码页面

网页中指定了以下的形式的编码 <META content="text/html; charset=gb2312" http-equiv=Content-Type> 一、使用org.htmlparser.beans.StringBean 1、代码: package extract;import java.io.UnsupportedEncodingExcepti ...
deepfuture 评论(0) 有16699人浏览 2009-12-23 17:15
  • 专栏创建者:deepfuture
  • 创建时间:2012-02-12 11:45:46
  • 专栏文章数:100篇
  • 专栏被浏览:282143 次

本专栏热门文章

最新评论

写的很好~
di1984HIT 评论了 lucene入门-索引网页
你好!我运行你的这个程序出现了问题,麻烦帮下忙!我的QQ:1422461141,谢谢了!
u013328887 评论了 搜索引擎开发lucene-笔者博客的大部分luce ...
解压密码:http://deepfuture.javaeye.com/
deepfuture 评论了 搜索引擎开发lucene-笔者博客的大部分luce ...
解压密码在哪,怎么没找到。谢谢了
jiaqian0118 评论了 搜索引擎开发lucene-笔者博客的大部分luce ...
内存索引写入硬盘文件索引的结果放到硬盘中,这样重启电脑后,仍然可以调取
deepfuture 评论了 lucene-内存索引、内存索引保存在硬盘、索 ...
博主,您好,请问下内存索引的原理是什么呢,大致是什么意思呢?文件的操作不都是在内存的嘛?
w156445045 评论了 lucene-内存索引、内存索引保存在硬盘、索 ...
能不能给一个比较完整的例子
zr19851213 评论了 lucene-同义词分析器
为什么我的英文也不支持?
cf2huihui 评论了 lucene-FuzzyQuery模糊查询
还行啊,做个记号
di1984HIT 评论了 lucene-多Field搜索与多索引搜索
QueryParser通过在某个项增加"~"后缀实现模糊查询 貌似这个有效果,但 ...
alfusen_xiong 评论了 lucene-FuzzyQuery模糊查询
Global site tag (gtag.js) - Google Analytics