博客专栏最新文章

[互联网] nutch1.0在eclipse下的成功编译要注意事项

有以下要点要注意: 1、在WINDOWS的环境变量中要正确指定JDK目录 2、build.xml编译报错, Nutch\nutch-0.9\build.xml:61: Specify at least one source--a file or resource collection. 将下面几行的前几行(从61行开始直到下面的<copy todir="${conf.dir} ...
deepfuture 有2073人浏览 2009-12-23 20:01 专栏:lucene等搜索引擎解析

[互联网] 为Nutch 1.0添加JE中文分词

先下载Nutch 1.0的源文件: svn co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0 更改查询语法解析部分: 改变tokenize的方式(原来为中文单字识别) modify “src/java/org/apache/nutch/analysis/NutchAnalysis.jj”l ...
deepfuture 有2486人浏览 2009-12-23 19:52 专栏:lucene等搜索引擎解析

[互联网] ubuntu下nutch-1.0的安装和配置错误排除

一、安装JDK(笔者推荐使用原生的方式安装SUN-JDK6 一、保证TOMCAT的正常安装 二,下载nutch-1.0,解压后,并将它拷贝到/opt/目录下。cd /opt/nutch-1.0root@fjadmin-webcrawler:/opt/nutch-1.0# sh bin/nutch crawl一般来说没有设置JAVA_HOME等环境,会报以下错误:[: 72: ==: unex ...
deepfuture 有5873人浏览 2009-12-23 19:51 专栏:lucene等搜索引擎解析

[互联网] nutch-JE分词

先下载Nutch 1.0的源文件: co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0 更改查询语法解析部分: 改变tokenize的方式(原来为中文单字识 ...
deepfuture 有1363人浏览 2009-12-23 19:39 专栏:lucene等搜索引擎解析

[互联网] Nutch 的配置

Nutch 的配置文件几乎覆盖了Nutch 所有的功能。以前在网上看到过一个关于Nutch-default.XML 配置项解释,地址我没收藏,和本文配合起来看,会更好一些。这里我也不打算对其配置文件中的每一项做解释,如果在下面的解释里找不到想要的内容,请发表评论,我会回复的。 <property><name>http.max.delays</name><v ...
deepfuture 有2303人浏览 2009-12-23 19:32 专栏:lucene等搜索引擎解析

[互联网] lucene入门-复杂索引建立

一个document包括多个field,以一个document为了一个单元建立索引,下例包括2个document: package bindex;import java.io.IOException; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apac ...
deepfuture 有1258人浏览 2009-12-23 19:26 专栏:lucene等搜索引擎解析

[互联网] lucene入门-索引网页

  package bindex;import java.io.File;import tool.FileText;import java.io.IOException; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.index ...
deepfuture 有1940人浏览 2009-12-23 19:21 专栏:lucene等搜索引擎解析

[互联网] lucene入门-索引目录下的所有网页以及索引检索

  package bindex;import java.io.File;import tool.FileText;import tool.FileList;import java.io.*; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.l ...
deepfuture 有1637人浏览 2009-12-23 19:15 专栏:lucene等搜索引擎解析

[互联网] lucene-使用CJKTokenizer分词

二分法分词 package busetoken; import org.apache.lucene.analysis.cjk.CJKTokenizer;import org.apache.lucene.analysis.Token; import java.io.IOException;import java.io.StringReader; public class UseCjk { / ...
deepfuture 有2852人浏览 2009-12-23 19:12 专栏:lucene等搜索引擎解析

[互联网] lucene-使用自带中文分词器

使用lucene内自带的,在contrib/analyzerslucene-analyzers-2.9.0.jar 即单字分析 package busetoken; import java.io.IOException;import java.io.StringReader; import org.apache.lucene.analysis.Token;import org.apache. ...
deepfuture 有2810人浏览 2009-12-23 19:01 专栏:lucene等搜索引擎解析

[互联网] lucene-NGram中文分词

NGram(综合了单词切分和二分法) package busetoken; import java.io.IOException;import java.io.StringReader; import org.apache.lucene.analysis.Token;import org.apache.lucene.analysis.ngram.NGramTokenizer; publi ...
deepfuture 有2702人浏览 2009-12-23 19:00 专栏:lucene等搜索引擎解析

[互联网] lucene入门-简单的WEB搜索界面

使用servlet和tomcat6,注意事项: 1,将lucene-core-2.9.0.jar复制到WEB-INF\lib 2,按照tomcat的要求组织好目录 3,编写好web.xml 4,编译产生的SluceneSearcher.class类拷到WEB-INF\classes\bservlet web.xml配置如下: <?xml version="1.0&quo ...
deepfuture 有2146人浏览 2009-12-23 18:46 专栏:lucene等搜索引擎解析

[互联网] lucene入门-使用JE中文分词

基于词库的算法分词,是较好的中文分词器 package busetoken;import java.io.IOException; import jeasy.analysis.MMAnalyzer; public class UseJe { /*** @param args* @throws IOException */public static void main(String[] arg ...
deepfuture 有1784人浏览 2009-12-23 18:45 专栏:lucene等搜索引擎解析

[互联网] lucene入门-解析pdf(使用pdfbox解析英文PDF)

下载pdfbox http://incubator.apache.org/pdfbox/ 下载相关的jar http://commons.apache.org/downloads/download_logging.cgi 引入external下的所有包 英语PDF: package extract;import java.io.FileWriter;import java.io.IOE ...
deepfuture 有2288人浏览 2009-12-23 18:40 专栏:lucene等搜索引擎解析

[互联网] lucene入门-解析word文档

下载: http://mirrors.ibiblio.org/pub/mirrors/maven2/org/textmining/tm-extractors/0.4/ java代码如下: package extract; import java.io.*;import org.textmining.text.extraction.WordExtractor; public class Ex ...
deepfuture 有1975人浏览 2009-12-23 18:39 专栏:lucene等搜索引擎解析

[互联网] lucene入门-解析pdf(使用xpdf解析中文PDF详细过程)

下载xpdf和xpdf-chinese-simplified.tar.gz ,然后将xpdf-chinese-simplified.tar.gz解压到xpdf所在的目录形成一个子目录 http://www.foolabs.com/xpdf/download.html The following packages are available: Arabic: xpdf-arabic.tar. ...
deepfuture 有7555人浏览 2009-12-23 17:27 专栏:lucene等搜索引擎解析

[互联网] lucene入门-使用pdfbox解析中文PDF

很多人使用 PDFBOX无法解析中文PDF,其实是在编程时没有指定字符集导致的,指定字符集后,pdfbox是完全可以解析中文PDF的 下载JAR文件 下载pdfbox http://incubator.apache.org/pdfbox/ 下载相关的jar http://commons.apache.org/downloads/download_logging.cgi 引入exter ...
deepfuture 有6339人浏览 2009-12-23 17:26 专栏:lucene等搜索引擎解析

[互联网] lucene-解析xml

1、安装DOM4j http://www.dom4j.org/ 2、安装jaxen http://jaxen.org/releases.html 3、代码 package extract;import java.io.*;import org.dom4j.*;import org.dom4j.io.*;import java.util.*; public class XmlExtract ...
deepfuture 有1674人浏览 2009-12-23 17:19 专栏:lucene等搜索引擎解析

[互联网] lucene-使用htmlparser解析未设定编码页面

一、 1、使用htmlparser解析网页,如果页面没有设定编码,那么htmlparser将会iso-8859-1和编码方式解析网页 2、本例假定网页没有指定编码,将http://hao.360.cn/ ...
deepfuture 有12030人浏览 2009-12-23 17:17 专栏:lucene等搜索引擎解析

[互联网] lucene-使用htmlparser解析有编码页面

网页中指定了以下的形式的编码 <META content="text/html; charset=gb2312" http-equiv=Content-Type> 一、使用org.htmlparser.beans.StringBean 1、代码: package extract;import java.io.UnsupportedEncodingExcepti ...
deepfuture 有16699人浏览 2009-12-23 17:15 专栏:lucene等搜索引擎解析

热门博客专栏

更多专栏>>

最新专栏

热门文章

最新评论

认真看错误代码,有时候重启电脑就行了 醉了 我把数据库配置写死不用配置文件 改 UserService ...
xxx不是你可以惹得 评论了 第十六章 综合实例——《跟我学Shiro》
holyselina 写道您前面说到能获取调用是的参数数组,我想问下,我想在通知方法中,获取当前调用代 ...
dagger9527 评论了 【第六章】 AOP 之 6.6 通知参数 ——跟 ...
Access denied for user 'root'@'localhost' (using pa ...
xxx不是你可以惹得 评论了 第十六章 综合实例——《跟我学Shiro》
只有@AspectJ支持命名切入点,而Schema风格不支持命名切入点。有一个问题不太明白Schema ...
dagger9527 评论了 【第六章】 AOP 之 6.5 AspectJ切入点语法 ...
支持虽然会迟到,但永远不会缺席!
dagger9527 评论了 【第四章】 资源 之 4.3 访问Resource ...
线上demo已经上线http://www.sparrowzoo.net/examples/markdo ...
zh_harry 评论了 高性能轻量级markdown 解析器java 版spar ...
valiant025 写道很经典,很期待谢谢支持,马上出来新的
springcloud关注者 评论了 (七)Java版Spring Cloud B2B2C o2o鸿鹄云 ...
公园美丽 写道谢谢分享,期待后面的文章,受益匪浅谢谢,马上出来
springcloud关注者 评论了 (七)Java版Spring Cloud B2B2C o2o鸿鹄云 ...
谢谢分享,期待后面的文章,受益匪浅
公园美丽 评论了 (七)Java版Spring Cloud B2B2C o2o鸿鹄云 ...
很经典,很期待
valiant025 评论了 (七)Java版Spring Cloud B2B2C o2o鸿鹄云 ...
Global site tag (gtag.js) - Google Analytics