- 浏览: 22595 次
- 性别:
- 来自: 武汉
最新评论
-
eagledame:
呵呵。。受用了 谢谢了啊~向楼主学习
利用LUCENE工具包中的例子初步学习全文检索 -
181054867:
感谢楼主的共享,内容的确比较全
转一篇lucene的使用的文章,写的比较全 -
imjl:
lz自己写的?如果是请修改标题,加上原创,如果是转载,请写明转 ...
如何做好一个垂直搜索引擎
文章列表
一 相对路径的获得
说明:相对路径(即不写明时候到底相对谁)均可通过以下方式获得(不论是一般的java项目还是web项目)
String relativelyPath=System.getProperty("user.dir");
上述相对路径中,java项目中的文件是相对于项目的根目录
web项目中的文件路径视不同的web服务器不同而不同(tomcat是相对于 tomcat安装目录\bin)
二 类加载目录的获得(即当运行时某一类时获得其装载目录)
1.1)通用的方法一(不论是一般的j ...
- 2009-07-17 10:51
- 浏览 1783
- 评论(0)
目前,流行的主流数据库都拥有此项功能,最具代表性的是Microsoft SQL Server 7.0、Oracle8i/9i等。但是,要让Job工作,还需要我们加以配置才能实现。这些配置都有GUI操作。本文介绍Oracle9i下通过命令行实现Job配置......
众所周知,一 ...
- 2009-07-17 10:44
- 浏览 2375
- 评论(0)
经常在oracle的使用过程中碰到这个问题,所以也总结了一点解决方法:)
1)查找死锁的进程:
sqlplus "/as sysdba"
SELECT s.username,l.OBJECT_ID,l.SESSION_ID,s.SERIAL#,l.ORACLE_USERNAME,l.OS_USER_NAME,l.PROCESS FROM V$LOCKED_OBJECT l,V$SESSION S WHERE l.SESSION_ID=S.SID;
2)kill掉这个死锁的进程:
alter system kill session ‘sid,serial#’; ( ...
- 2009-07-17 10:43
- 浏览 2314
- 评论(0)
1 lucene简介
1.1 什么是lucene
Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。
1.2 lucene能做什么
要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。知道了这个本质,你就可以发挥想象做任何符合这个条件的事情了。你可以把站内新闻都索引了,做个资料库;你可以把一个数据库表的若干个字段索引起来,那就不用再担心因为“%lik ...
- 2008-02-21 17:03
- 浏览 1324
- 评论(1)
先 说下CVSNT的用户验证方式,CVSNT的用户验证方式分两种:Windows系统用户与CVSNT用户共存的混合验证方式,及CVSNT用户单一验证 方式,默认工作在混合验证方式下,当然使用单一验证方式对用户的管理肯定比较方便一点,因此下 ...
- 2008-02-21 16:49
- 浏览 3931
- 评论(0)
默认情况下,IndexSearcher类的search方法返回查询结果时,是按文档的分值排序的,可以使用重载的search方法对结果排序
IndexSearcher.search(Query,Sort);
new Sort() 和 Sort.RELEVANCE,以及null一样,采用默认排序,要定义排序字段,方法是将字段传入Sort对象
Sort sort = new Sort(String field);
也可以对多个字段排序Sort sort = new Sort(String[] fields);
例:
Sort sort = new Sort(new SortField[] ...
- 2008-02-21 16:11
- 浏览 3784
- 评论(0)
利用LUCENE工具包时,虽然lucene缺省提供了2个比较通用的分析器SimpleAnalyser和StandardAnalyser,但这2个分析器对中文的支持都非常弱,所以要加入对中文语言的切分规则,后来发现了Qieqie的庖丁解牛,于是下载下来想好好利用这个来解决我的中文分词问题,但是经过我的测试,发现总是找不到那个字典目录,还好有源文件,后来就看了下它里面加载资源文件的类,可能就是路径没有配对的问题。于是我查明原因后就重新打包了,后来就OK了,希望遇到我同样问题的朋友们能即时纠正.
第一步,下载庖丁解牛工具包paoding-analysis-2.0.4-alpha2
下载地址:http: ...
- 2008-02-21 15:28
- 浏览 4126
- 评论(0)
第一个类Searcher,主要负责遍历指定的文件系统并且索引文件中包含.txt文件
package com.biaoqi.ibs.util;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.io.Reader;
import java.util.Date;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
im ...
- 2008-02-21 14:48
- 浏览 1955
- 评论(1)
网络搜索主要包括信息采集、信息抽取、信息加工、信息检索四个模块。
1) 信息采集(网络蜘蛛)
对指定网站进行数据采集,把需要的信息存放到本地,并记录相应的采集信息。以供信息抽取模块进行数据提取。
2) 信息抽取
从采集的信息中抽取有效的数据进行结构化处理。剔除垃圾信息,获得正文内容,以及相关图片、种子文件等相关信息。对网站的追加信息、更新信息、删除信息进行分类处理。通过配置XML文件对不同站点的数据进行提取。
3) 信息加工
对抽取的信息进行数据加工处理。添加、修改、审核及相关的业务数据整理分类等。信息加工后的数据提交进行信息分词及建立索引。
4) 信息检索
提供信息查询接口。对信息进行分词处理 ...