- 浏览: 56265 次
- 来自: 北京
最新评论
-
泛泛evil:
总结的很好,谢谢分享
JavaScript -
wanxkl:
哇!总结的太好了。。凤哥哥,你好强大啊。。请问您跟凤姐什么关系 ...
css应用
全文搜索
核心:创建索引——查询索引--分词器
索引引擎:创建索引
查询引擎:查询索引
文本分析引擎:分词器
开发接口:应用调用他的api实现以上功能
一、lucene实例(全文检索适用于数据量巨大的情况)
基于java的全文索引工具包(只关注文本的搜索和索引)
package:lucene。index索引包、lucene。store存储包、lucene。document一条索引、lucene。util工具包、lucene。queryParser解析搜索语言包、lucene。search查询包、lucene。analysis对外接口,分词包
1.文件搜索引擎(文件解析、创建索引、检索)
流程:
构建文本库----构建索引----进行搜索----对结果进行过滤、排序
package:core
数据来源:txt文件
1.数据收集
2.创建索引
a。创建indexWriter
b。创建Document 添加到IndexWriterz中
c。创建Field,添加到Document
d。优化索引
e。关闭IndexWriter
IndexWriter(文件,分词器,是否新建索引文件,是否限制大小多少(或给出数量按照出现频率多少创建))
Field:
存储:表示是否需要显示
索引:表示是否需要按此项进行搜索
分词:表示是否对该项支持模糊查询
pulic Field(String name,String value,Store store,Index index);
pulic Field(String name,Reader reader);
pulic Field(String name,byte[] value,Store store);
name:名称
value:值,文字或二进制数组(比如声音,图片),文字较多可以用流读取
store:存储
store.NO 不存储
store.YES 存储
store.COMPRES 压缩存储(适用二进制)
index:索引方式
Index.NO 不索引
Index.UN_ANALYZED 不分词索引
Index.NO_NORMS 不分词索引,禁止参与评分,减少内存消耗
Index.ANALYZED 分词索引
3.查询索引
TopDocs--TopDocs.totalHits--TopDocs.scoreDocs--scoreDoc.doc--scoreDoc.score
a.创建Indexsearch
b.创建query new xxxQuery()/QueryParse.parse(..);
c.执行搜索,返回topDocs
d.遍历topDocs.scoreDocs
e.找到doc--Document
f.Document--Field
g.关闭IndexSearch
IndexSearch(文件,是否只读);
分词器:standard、jfk、ik
office:poi
2.web搜索引擎
爬虫、html解析、创建索引、分页搜索、高亮显示
3.wap搜索引擎
创建查询索引、wap显示
二、分布式搜索与缓存
1.特指的分布式搜索引擎
2.广义上的分布式搜索引擎
发表评论
-
lucene3.0 例一
2012-09-11 20:18 625package com.lucene;import java. ... -
庖丁解牛配置【转载】
2012-06-19 17:29 0最近做有关搜索引擎的项目,使用中文分词工具“庖丁解牛”。 ... -
分布式存储(转载)
2012-06-05 15:42 1170L1、HTML静态化其实大家都知道,效率最高、消耗最小的 ... -
java设计原则
2012-04-05 16:50 790原则1:DRY(Don't repeat ... -
java静态、动态代理
2012-04-04 18:51 810JAVA的动态代理 代理模式 代理模式是常用的java设计模式 ... -
Hibernate声明事务
2011-09-17 16:25 856事务处理 第一种方式: 首先配置datasoure: ... -
javascript应用3
2011-09-10 15:14 934打开一个新页面:{ <script t ... -
javascript应用2
2011-09-10 15:09 873日期插件的应用:{ <script type=& ... -
javascript应用1
2011-09-10 15:00 943javascript {<!-- 1.j ... -
css应用
2011-09-10 14:59 862CSS 本章目标 1、CSS的定义、优势 2、css的基 ... -
Html
2011-09-10 14:56 891HTML 超链接:{ <a href=”http:/ ... -
jsp、el、jstl.doc
2011-09-10 14:53 1302serlvet和jsp区别和联系 jsp从本质上讲也是s ... -
Jdbc
2011-09-10 14:49 872jdbc操作数据库插入、更新、删除、查找 mysql数据 ... -
文件上传步骤
2011-09-10 14:47 729文件上传的简单方法:(原理性的实验) 1. <b ... -
中文乱码问题解决
2011-09-10 14:43 7171. post方式提交的数据 采用request.setCha ... -
事务传播特性与隔离级别
2011-09-10 14:38 759事务传播特性了解事务的几种传播特性 ... -
监听器
2011-09-10 14:36 847监听器概述 1.Listener是Servlet的监听器 ... -
过滤器
2011-09-10 14:35 12121. Servlet过滤器基础 Servlet过滤器是Se ... -
web编程常用配置2
2011-09-10 14:35 682c3p0.jar:C3PO是一个数据库连接池,Hibern ... -
web编程常用配置1
2011-09-10 14:33 956mysql数据库jdbc驱动 jdbcDriver = co ...
相关推荐
lucene3.0 lucene3.0 lucene3.0 lucene3.0 lucene3.0
lucene 3.0 API中文帮助,学习的人懂得的
Lucene3.0 使 用 教 程 Lucene3.0 使 用 教 程 Lucene3.0 使 用 教 程 Lucene3.0 使 用 教 程 Lucene3.0 使 用 教 程 Lucene3.0 使 用 教 程 Lucene3.0 使 用 教 程 Lucene3.0 使 用 教 程 Lucene3.0 使 用 教 程 ...
Lucene3.0之查询处理(1):原理和查询类型 各种Query对象详解
Lucene3.0特性Lucene3.0特性
Lucene 3.0 原理与代码分析完整版
lucene3.0 中文分词器, 庖丁解牛
lucene3.0 实例,在jdk1.5,lucene3.0下调式通过,可以直接运行。先运行生成索引文件的class,在运行搜索的class。
lucene3.0的核心jar包文件,lucene3.0的核心jar包文件,lucene3.0的核心jar包文件,lucene3.0的核心jar包文件。
传智播客Lucene3.0课程,Lucene3.0的入门教程.
lucene3.0-highlighter.jar lucene3.0的高亮jar包,从lucene3.0源码中导出来的
lucene升级了,分词也得升级哦! 在使用lucene3与paoding集成的时候可能会出现以下错误: Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z ...
基于lucene3.0 书籍查询系统 基于lucene3.0 书籍查询系统
全面好用的lucene 2.0 api以及lucene 3.0 api帮助文档
Lucene3.0分词系统.doc
实例是一个java实例,可直接导入到MyEclipse中使用。 其中是lucene3.0整合了庖丁解牛分词法,添加了...因为lucene3.0无法整合paoding-analysis.jar 所以我已经把paoding-analysis中的源码整合进来了避免无法整合问题
支持lucene3.0以上版本的分词器paoding的jar包还没有出来,只有源代码。我通过将源代码打包得到此jar.并且测试过。可以和当前最新版本的lucene3.6整合
lucene 3.0 入门实例项目,迅速教会你怎么使用3.0API
Lucene3.0创建索引 读取目录下的所有txt文档格式的文件,然后生成一个索引文件到某目录下!