`
zhoujiangzi
  • 浏览: 95266 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

Lucene 初体验

阅读更多

     今天看了下Lucene的更新,已经到4.4.0的版本了,而且新的API变化也比较多,对于老版本的Lucene想要升级到最新的版本,不是简单的更新jar包就可以的。

    下面写了个简单的小例子。可以看一下

 

1.创建maven工程

    在eclipse里面创建个maven项目,一个简单的项目即可,下面是对于的pom.xml文件,需要将Lucene的jar包引入进来。

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.jacksoft</groupId>
  <artifactId>Lucene-test</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  
  <properties>
  	<lucene.version>4.4.0</lucene.version>
  </properties>
  
  <dependencies>
  	<dependency>
  		<groupId>org.apache.lucene</groupId>
  		<artifactId>lucene-core</artifactId>
  		<version>${lucene.version}</version>
  	</dependency>
	
	<dependency>
		<groupId>org.apache.lucene</groupId>
		<artifactId>lucene-analyzers-common</artifactId>
		<version>${lucene.version}</version>
	</dependency>
	
	<dependency>
		<groupId>org.apache.lucene</groupId>
		<artifactId>lucene-queryparser</artifactId>
		<version>${lucene.version}</version>
	</dependency>
            
            
            
  </dependencies>
  
</project>

   这里只是简单的添加依赖关系,下载好jar包之后,我在本地创建了3个txt文件,如下:

  

  

 准备工作就差不多了,下面就开始进行编码工作

 

2. 编码

    由于是多个文件的搜索,这里创建一个工具类来递归目录,找到这三个txt文件,我将这三个txt文件放在本地:D:\lucene\luceneData目录中

   

package com.jacksoft.lucene.util;

import java.io.File;
import java.util.List;

public class FileUtils {

	public static void listFile(File f,List<String> fileList){
		if(f.isDirectory()){
			File[] files = f.listFiles();
			for(int i=0;i<files.length ;i++)
			{
				listFile(files[i],fileList) ;
			}
		}else{
			fileList.add(f.getAbsolutePath());
		}
	}
}

    这样返回的fileList中就包含了我们需要的txt文件,当然这里还可以设置过滤器来指定后缀名。

  接下来就是创建索引和查询的过程:

package com.jacksoft.lucene;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.TextField;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.IndexWriterConfig.OpenMode;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

import com.jacksoft.lucene.util.FileUtils;

/**
 *  多文件搜索
 * @Project Lucene-test
 *
 * @Filename MultLuceneTest2.java
 *
 * @author Jack.Zhou
 *
 * @Date 2013-8-29
 *
 */
public class LuceneTest {

	private static final String QUERY_STR = "四川";
	
	private static final String FILE_TARGET = "D:\\lucene\\luceneData";
	
	private static final String FILE_INDEX = "D:\\lucene\\luceneIndex";
	
	
	public static void main(String[] args) {
		try {
			LuceneTest t = new LuceneTest();
			t.createIndex();
			t.searchByKeyWords(QUERY_STR);
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
	
	/**
	 *  创建索引
	 * @throws Exception
	 */
	private void createIndex() throws Exception{
		Long startTime = System.currentTimeMillis();
		File indexDir = new File(FILE_INDEX);
		Analyzer luceneAnalyzer = new StandardAnalyzer(Version.LUCENE_44);
		IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_44, luceneAnalyzer);
		config.setOpenMode(OpenMode.CREATE);
		Directory directory = FSDirectory.open(indexDir);
		IndexWriter indexWriter = new IndexWriter(directory, config);
		List<String> fileList = new ArrayList<String>();
		FileUtils.listFile(new File(FILE_TARGET), fileList);
		for(String filePath : fileList){
			System.out.println("文件:" + filePath + "正在被索引....");
			String content = readFile(filePath);
			Document doc = new Document();
			doc.add(new TextField("content", content.toString(), Store.YES));
			doc.add(new TextField("path", filePath, Store.YES));
			indexWriter.addDocument(doc);
		}
		indexWriter.close();
		Long endTime = System.currentTimeMillis();
		System.out.println("花费了" + (endTime - startTime) + "毫秒来创建索引文件");
		
	}
	/**
	 *  读取文件内容
	 * @param filePath
	 * @return
	 * @throws Exception
	 */
	private String readFile(String filePath) throws Exception{
		@SuppressWarnings("resource")
		BufferedReader bufferedReader = new BufferedReader(
				new InputStreamReader(new FileInputStream(filePath)));
		StringBuffer content = new StringBuffer();
		String str = null;
		while ((str = bufferedReader.readLine()) != null) {
			content.append(str).append("\n");
		}
		return content.toString();
	}
	
	
	private void searchByKeyWords(String keyWords) throws Exception{
		IndexReader reader = DirectoryReader.open(FSDirectory.open(new File(FILE_INDEX)));
		IndexSearcher searcher = new IndexSearcher(reader);
		Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_44);
		QueryParser parser = new QueryParser(Version.LUCENE_44, "content",analyzer);
		Query query = parser.parse(keyWords);
		TopDocs results = searcher.search(query,1000);
		ScoreDoc[] score = results.scoreDocs;
		if (score.length == 0) {
			System.out.println("对不起,没有找到您要的结果。");
		} else {
			System.out.println("查找["+QUERY_STR+"]有" + score.length + "个结果");
			for (int i = 0; i < score.length; i++) {
				try {
					Document doc = searcher.doc(score[i].doc);
					System.out.print("这是第" + i + "个检索到的结果,文件名为:");
					System.out.println(doc.get("path"));
					System.out.println("内容:\n" + doc.get("content"));
				} catch (Exception e) {
					e.printStackTrace();
				}
			}
		}
	}
}

 

   代码中的常量可以通过文档来查看,运行后就可以看到搜索的结果了。

 

   当然这里只是对txt进行搜索,你还可以对word,excel,pdf等文档进行搜索,前提是要将其内容读取出来,创建索引即可。

 

  • 大小: 45.1 KB
分享到:
评论

相关推荐

    强化学习——电网运营和维护的强化学习,用于电网优化运营和维护Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    cmd-bat-批处理-脚本-MakeToolWindow.zip

    cmd-bat-批处理-脚本-MakeToolWindow.zip

    “华为杯”第十八届中国研究生数学建模竞赛参赛论文

    “华为杯”第十八届中国研究生数学建模竞赛是一项全国性赛事,致力于提升研究生的数学建模与创新实践能力。数学建模是将实际问题转化为数学模型,并运用数学方法求解以解决实际问题的科学方法。该竞赛为参赛者提供了展示学术水平和团队协作精神的平台。 论文模板通常包含以下内容:封面需涵盖比赛名称、学校参赛队号、队员姓名以及“华为杯”和中国研究生创新实践系列大赛的标志;摘要部分应简洁明了地概括研究工作,包括研究问题、方法、主要结果和结论,使读者无需阅读全文即可了解核心内容;目录则列出各章节标题,便于读者快速查找;问题重述部分需详细重新阐述比赛中的实际问题,涵盖背景、原因及重要性;问题分析部分要深入探讨每个问题的内在联系与解决思路,分析各个子问题的特点、难点及可能的解决方案;模型假设与符号说明部分需列出合理假设以简化问题,并清晰定义模型中的变量和符号;模型建立与求解部分是核心,详细阐述将实际问题转化为数学模型的过程,以及采用的数学工具和求解步骤;结果验证与讨论部分展示模型求解结果,评估模型的有效性和局限性,并对结果进行解释;结论部分总结研究工作,强调模型的意义和对未来研究的建议;参考文献部分列出引用文献,遵循规范格式。 在准备竞赛论文时,参赛者需注重逻辑清晰、论述严谨,确保模型科学实用。良好的团队协作和时间管理也是成功的关键。通过竞赛,研究生们不仅锻炼了数学应用能力,还提升了团队合作、问题解决和科研写作能力。

    一个检测俯卧撑和下蹲的检测系统

    希望这会对大家有用,共同发挥互联网精神!

    用于分析和表示神经动脉血流的MATLAB模型.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    cmd-bat-批处理-脚本-Run python script.zip

    cmd-bat-批处理-脚本-Run python script.zip

    基于MatlabSimulink的UKFEKF路面附着系数估计及仿真分析 MatlabSimulink

    内容概要:本文详细介绍了利用Matlab/Simulink平台,通过无迹扩展卡尔曼滤波(UKF/EKF)进行路面附着系数估计的方法及其仿真功能。文中首先阐述了Dugoff轮胎模型的构建方法,强调了避免代数环的重要性,并提供了具体的模块连接方式。接着,描述了7自由度整车模型的搭建步骤,特别是质心加速度和轮速之间的耦合关系。最后,深入探讨了UKF和EKF滤波器的配置细节,包括状态变量选择、观测值设定以及协方差矩阵的初始化等关键参数调整。仿真结果显示,在80km/h的速度下,UKF相比EKF的均方误差降低了18%,但CPU耗时增加了40%。 适合人群:从事车辆控制系统研究的专业人士,尤其是对卡尔曼滤波有一定了解的研究人员和技术人员。 使用场景及目标:适用于需要精确估计路面附着系数的应用场合,如汽车电子稳定程序(ESP)的设计与优化。通过提高附着系数估计的准确性,可以有效提升车辆行驶的安全性和稳定性。 其他说明:文章不仅提供了理论指导,还给出了实际操作的具体步骤和注意事项,帮助读者更好地理解和应用相关技术。

    实体建模技术研究进展.zip

    实体建模技术研究进展.zip

    基于4G通信的高负载电动汽车远程监控平台软件设计与开发.zip

    基于4G通信的高负载电动汽车远程监控平台软件设计与开发.zip

    IMG_20250521_201207.jpg

    IMG_20250521_201207.jpg

    cmd-bat-批处理-脚本-数学-isInteger.zip

    cmd-bat-批处理-脚本-数学-isInteger.zip

    基于改进DeepLabv3+的高分辨率遥感影像屋顶提取方法.pdf

    基于改进DeepLabv3+的高分辨率遥感影像屋顶提取方法.pdf

    cmd-bat-批处理-脚本-post-install.zip

    cmd-bat-批处理-脚本-post-install.zip

    基于遗传算法优化的BP神经网络预测模型代码及注释

    遗传算法优化BP神经网络(GABP)是一种结合了遗传算法(GA)和BP神经网络的优化预测方法。BP神经网络是一种多层前馈神经网络,常用于模式识别和预测问题,但其容易陷入局部最优。而遗传算法是一种模拟自然选择和遗传机制的全局优化方法,能够有效避免局部最优 。GABP算法通过遗传算法优化BP神经网络的权重和阈值,从而提高网络的学习效率和预测精度 。 种群:遗传算法中个体的集合,每个个体代表一种可能的解决方案。 编码:将解决方案转化为适合遗传操作的形式,如二进制编码。 适应度函数:用于评估个体解的质量,通常与目标函数相反,目标函数值越小,适应度越高。 选择:根据适应度保留优秀个体,常见方法有轮盘赌选择、锦标赛选择等。 交叉:两个父代个体交换部分基因生成子代。 变异:随机改变个体的部分基因,增加种群多样性。 终止条件:当迭代次数或适应度阈值达到预设值时停止算法 。 初始化种群:随机生成一组神经网络参数(权重和阈值)作为初始种群 。 计算适应度:使用神经网络模型进行训练和预测,根据预测误差计算适应度 。 选择操作:根据适应度选择优秀个体 。 交叉操作:对选择的个体进行交叉,生成新的子代个体 。 变异操作:对子代进行随机变异 。 替换操作:用新生成的子代替换掉一部分旧种群 。 重复步骤2-6,直到满足终止条件 。 适应度函数通常以预测误差为基础,误差越小,适应度越高。常用的误差指标包括均方根误差(RMSE)或平均绝对误差(MAE)等 。 GABP代码中包含了适应度函数的定义、种群的生成、选择、交叉、变异以及训练过程。代码注释详尽,便于理解每个步骤的作用 。 GABP算法适用于多种领域,如时间序列预测、经济预测、工程问题的优化等。它特别适合解决多峰优化问题,能够有效提高预测的准确性和稳定性 。

    太阳高度角和方位角建模及核桃树阴影变化分析.pdf

    太阳高度角和方位角建模及核桃树阴影变化分析.pdf

    cmd-bat-批处理-脚本-param2.zip

    cmd-bat-批处理-脚本-param2.zip

    前端开发Uniapp日期时间选择器:实现分钟动态步长设置

    Uniapp原生适配日期时间选择器,可动态设置分钟显示间隔

    cmd-bat-批处理-脚本-日期-W32DOW.zip

    cmd-bat-批处理-脚本-日期-W32DOW.zip

    logo ant design 的

    logo ant design 的

    2025年自动化X光检查机项目大数据研究报告.docx

    2025年自动化X光检查机项目大数据研究报告.docx

Global site tag (gtag.js) - Google Analytics