Lucene 初体验

zhoujiangzi

浏览: 95266 次
性别:
来自: 成都

最近访客更多访客>>

1621326529

ErrorOr

dzq1994

liuluwdy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java 随手记

Lucene

今天看了下Lucene的更新，已经到4.4.0的版本了，而且新的API变化也比较多，对于老版本的Lucene想要升级到最新的版本，不是简单的更新jar包就可以的。

下面写了个简单的小例子。可以看一下

1.创建maven工程

在eclipse里面创建个maven项目，一个简单的项目即可，下面是对于的pom.xml文件，需要将Lucene的jar包引入进来。

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.jacksoft</groupId>
  <artifactId>Lucene-test</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  
  <properties>
  	<lucene.version>4.4.0</lucene.version>
  </properties>
  
  <dependencies>
  	<dependency>
  		<groupId>org.apache.lucene</groupId>
  		<artifactId>lucene-core</artifactId>
  		<version>${lucene.version}</version>
  	</dependency>
	
	<dependency>
		<groupId>org.apache.lucene</groupId>
		<artifactId>lucene-analyzers-common</artifactId>
		<version>${lucene.version}</version>
	</dependency>
	
	<dependency>
		<groupId>org.apache.lucene</groupId>
		<artifactId>lucene-queryparser</artifactId>
		<version>${lucene.version}</version>
	</dependency>
            
            
            
  </dependencies>
  
</project>

这里只是简单的添加依赖关系，下载好jar包之后，我在本地创建了3个txt文件，如下：

准备工作就差不多了，下面就开始进行编码工作

2. 编码

由于是多个文件的搜索，这里创建一个工具类来递归目录，找到这三个txt文件，我将这三个txt文件放在本地:D:\lucene\luceneData目录中

package com.jacksoft.lucene.util;

import java.io.File;
import java.util.List;

public class FileUtils {

	public static void listFile(File f,List<String> fileList){
		if(f.isDirectory()){
			File[] files = f.listFiles();
			for(int i=0;i<files.length ;i++)
			{
				listFile(files[i],fileList) ;
			}
		}else{
			fileList.add(f.getAbsolutePath());
		}
	}
}

这样返回的fileList中就包含了我们需要的txt文件，当然这里还可以设置过滤器来指定后缀名。

接下来就是创建索引和查询的过程：

package com.jacksoft.lucene;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.TextField;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.IndexWriterConfig.OpenMode;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

import com.jacksoft.lucene.util.FileUtils;

/**
 *  多文件搜索
 * @Project Lucene-test
 *
 * @Filename MultLuceneTest2.java
 *
 * @author Jack.Zhou
 *
 * @Date 2013-8-29
 *
 */
public class LuceneTest {

	private static final String QUERY_STR = "四川";
	
	private static final String FILE_TARGET = "D:\\lucene\\luceneData";
	
	private static final String FILE_INDEX = "D:\\lucene\\luceneIndex";
	
	
	public static void main(String[] args) {
		try {
			LuceneTest t = new LuceneTest();
			t.createIndex();
			t.searchByKeyWords(QUERY_STR);
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
	
	/**
	 *  创建索引
	 * @throws Exception
	 */
	private void createIndex() throws Exception{
		Long startTime = System.currentTimeMillis();
		File indexDir = new File(FILE_INDEX);
		Analyzer luceneAnalyzer = new StandardAnalyzer(Version.LUCENE_44);
		IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_44, luceneAnalyzer);
		config.setOpenMode(OpenMode.CREATE);
		Directory directory = FSDirectory.open(indexDir);
		IndexWriter indexWriter = new IndexWriter(directory, config);
		List<String> fileList = new ArrayList<String>();
		FileUtils.listFile(new File(FILE_TARGET), fileList);
		for(String filePath : fileList){
			System.out.println("文件:" + filePath + "正在被索引....");
			String content = readFile(filePath);
			Document doc = new Document();
			doc.add(new TextField("content", content.toString(), Store.YES));
			doc.add(new TextField("path", filePath, Store.YES));
			indexWriter.addDocument(doc);
		}
		indexWriter.close();
		Long endTime = System.currentTimeMillis();
		System.out.println("花费了" + (endTime - startTime) + "毫秒来创建索引文件");
		
	}
	/**
	 *  读取文件内容
	 * @param filePath
	 * @return
	 * @throws Exception
	 */
	private String readFile(String filePath) throws Exception{
		@SuppressWarnings("resource")
		BufferedReader bufferedReader = new BufferedReader(
				new InputStreamReader(new FileInputStream(filePath)));
		StringBuffer content = new StringBuffer();
		String str = null;
		while ((str = bufferedReader.readLine()) != null) {
			content.append(str).append("\n");
		}
		return content.toString();
	}
	
	
	private void searchByKeyWords(String keyWords) throws Exception{
		IndexReader reader = DirectoryReader.open(FSDirectory.open(new File(FILE_INDEX)));
		IndexSearcher searcher = new IndexSearcher(reader);
		Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_44);
		QueryParser parser = new QueryParser(Version.LUCENE_44, "content",analyzer);
		Query query = parser.parse(keyWords);
		TopDocs results = searcher.search(query,1000);
		ScoreDoc[] score = results.scoreDocs;
		if (score.length == 0) {
			System.out.println("对不起，没有找到您要的结果。");
		} else {
			System.out.println("查找["+QUERY_STR+"]有" + score.length + "个结果");
			for (int i = 0; i < score.length; i++) {
				try {
					Document doc = searcher.doc(score[i].doc);
					System.out.print("这是第" + i + "个检索到的结果，文件名为：");
					System.out.println(doc.get("path"));
					System.out.println("内容:\n" + doc.get("content"));
				} catch (Exception e) {
					e.printStackTrace();
				}
			}
		}
	}
}

代码中的常量可以通过文档来查看，运行后就可以看到搜索的结果了。

当然这里只是对txt进行搜索，你还可以对word，excel，pdf等文档进行搜索，前提是要将其内容读取出来，创建索引即可。

查看图片附件

分享到：

Maven 指定jar下载地址 | UNION 查询结果排序

2013-08-29 15:28
浏览 1870
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

强化学习——电网运营和维护的强化学习，用于电网优化运营和维护Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

cmd-bat-批处理-脚本-MakeToolWindow.zip: cmd-bat-批处理-脚本-MakeToolWindow.zip

“华为杯”第十八届中国研究生数学建模竞赛参赛论文: “华为杯”第十八届中国研究生数学建模竞赛是一项全国性赛事，致力于提升研究生的数学建模与创新实践能力。数学建模是将实际问题转化为数学模型，并运用数学方法求解以解决实际问题的科学方法。该竞赛为参赛者提供了展示学术水平和团队协作精神的平台。论文模板通常包含以下内容：封面需涵盖比赛名称、学校参赛队号、队员姓名以及“华为杯”和中国研究生创新实践系列大赛的标志；摘要部分应简洁明了地概括研究工作，包括研究问题、方法、主要结果和结论，使读者无需阅读全文即可了解核心内容；目录则列出各章节标题，便于读者快速查找；问题重述部分需详细重新阐述比赛中的实际问题，涵盖背景、原因及重要性；问题分析部分要深入探讨每个问题的内在联系与解决思路，分析各个子问题的特点、难点及可能的解决方案；模型假设与符号说明部分需列出合理假设以简化问题，并清晰定义模型中的变量和符号；模型建立与求解部分是核心，详细阐述将实际问题转化为数学模型的过程，以及采用的数学工具和求解步骤；结果验证与讨论部分展示模型求解结果，评估模型的有效性和局限性，并对结果进行解释；结论部分总结研究工作，强调模型的意义和对未来研究的建议；参考文献部分列出引用文献，遵循规范格式。在准备竞赛论文时，参赛者需注重逻辑清晰、论述严谨，确保模型科学实用。良好的团队协作和时间管理也是成功的关键。通过竞赛，研究生们不仅锻炼了数学应用能力，还提升了团队合作、问题解决和科研写作能力。

一个检测俯卧撑和下蹲的检测系统: 希望这会对大家有用，共同发挥互联网精神！

用于分析和表示神经动脉血流的MATLAB模型.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

cmd-bat-批处理-脚本-Run python script.zip: cmd-bat-批处理-脚本-Run python script.zip

基于MatlabSimulink的UKFEKF路面附着系数估计及仿真分析 MatlabSimulink: 内容概要：本文详细介绍了利用Matlab/Simulink平台，通过无迹扩展卡尔曼滤波（UKF/EKF）进行路面附着系数估计的方法及其仿真功能。文中首先阐述了Dugoff轮胎模型的构建方法，强调了避免代数环的重要性，并提供了具体的模块连接方式。接着，描述了7自由度整车模型的搭建步骤，特别是质心加速度和轮速之间的耦合关系。最后，深入探讨了UKF和EKF滤波器的配置细节，包括状态变量选择、观测值设定以及协方差矩阵的初始化等关键参数调整。仿真结果显示，在80km/h的速度下，UKF相比EKF的均方误差降低了18%，但CPU耗时增加了40%。适合人群：从事车辆控制系统研究的专业人士，尤其是对卡尔曼滤波有一定了解的研究人员和技术人员。使用场景及目标：适用于需要精确估计路面附着系数的应用场合，如汽车电子稳定程序（ESP）的设计与优化。通过提高附着系数估计的准确性，可以有效提升车辆行驶的安全性和稳定性。其他说明：文章不仅提供了理论指导，还给出了实际操作的具体步骤和注意事项，帮助读者更好地理解和应用相关技术。

实体建模技术研究进展.zip: 实体建模技术研究进展.zip

基于4G通信的高负载电动汽车远程监控平台软件设计与开发.zip: 基于4G通信的高负载电动汽车远程监控平台软件设计与开发.zip

IMG_20250521_201207.jpg: IMG_20250521_201207.jpg

cmd-bat-批处理-脚本-数学-isInteger.zip: cmd-bat-批处理-脚本-数学-isInteger.zip

基于改进DeepLabv3+的高分辨率遥感影像屋顶提取方法.pdf: 基于改进DeepLabv3+的高分辨率遥感影像屋顶提取方法.pdf

cmd-bat-批处理-脚本-post-install.zip: cmd-bat-批处理-脚本-post-install.zip

基于遗传算法优化的BP神经网络预测模型代码及注释: 遗传算法优化BP神经网络（GABP）是一种结合了遗传算法（GA）和BP神经网络的优化预测方法。BP神经网络是一种多层前馈神经网络，常用于模式识别和预测问题，但其容易陷入局部最优。而遗传算法是一种模拟自然选择和遗传机制的全局优化方法，能够有效避免局部最优。GABP算法通过遗传算法优化BP神经网络的权重和阈值，从而提高网络的学习效率和预测精度。种群：遗传算法中个体的集合，每个个体代表一种可能的解决方案。编码：将解决方案转化为适合遗传操作的形式，如二进制编码。适应度函数：用于评估个体解的质量，通常与目标函数相反，目标函数值越小，适应度越高。选择：根据适应度保留优秀个体，常见方法有轮盘赌选择、锦标赛选择等。交叉：两个父代个体交换部分基因生成子代。变异：随机改变个体的部分基因，增加种群多样性。终止条件：当迭代次数或适应度阈值达到预设值时停止算法。初始化种群：随机生成一组神经网络参数（权重和阈值）作为初始种群。计算适应度：使用神经网络模型进行训练和预测，根据预测误差计算适应度。选择操作：根据适应度选择优秀个体。交叉操作：对选择的个体进行交叉，生成新的子代个体。变异操作：对子代进行随机变异。替换操作：用新生成的子代替换掉一部分旧种群。重复步骤2-6，直到满足终止条件。适应度函数通常以预测误差为基础，误差越小，适应度越高。常用的误差指标包括均方根误差（RMSE）或平均绝对误差（MAE）等。 GABP代码中包含了适应度函数的定义、种群的生成、选择、交叉、变异以及训练过程。代码注释详尽，便于理解每个步骤的作用。 GABP算法适用于多种领域，如时间序列预测、经济预测、工程问题的优化等。它特别适合解决多峰优化问题，能够有效提高预测的准确性和稳定性。

太阳高度角和方位角建模及核桃树阴影变化分析.pdf: 太阳高度角和方位角建模及核桃树阴影变化分析.pdf

cmd-bat-批处理-脚本-param2.zip: cmd-bat-批处理-脚本-param2.zip

前端开发Uniapp日期时间选择器：实现分钟动态步长设置: Uniapp原生适配日期时间选择器，可动态设置分钟显示间隔

cmd-bat-批处理-脚本-日期-W32DOW.zip: cmd-bat-批处理-脚本-日期-W32DOW.zip

logo ant design 的: logo ant design 的

2025年自动化X光检查机项目大数据研究报告.docx: 2025年自动化X光检查机项目大数据研究报告.docx

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论