今天看了下Lucene的更新,已经到4.4.0的版本了,而且新的API变化也比较多,对于老版本的Lucene想要升级到最新的版本,不是简单的更新jar包就可以的。
下面写了个简单的小例子。可以看一下
1.创建maven工程
在eclipse里面创建个maven项目,一个简单的项目即可,下面是对于的pom.xml文件,需要将Lucene的jar包引入进来。
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.jacksoft</groupId> <artifactId>Lucene-test</artifactId> <version>0.0.1-SNAPSHOT</version> <properties> <lucene.version>4.4.0</lucene.version> </properties> <dependencies> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>${lucene.version}</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-analyzers-common</artifactId> <version>${lucene.version}</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-queryparser</artifactId> <version>${lucene.version}</version> </dependency> </dependencies> </project>
这里只是简单的添加依赖关系,下载好jar包之后,我在本地创建了3个txt文件,如下:
准备工作就差不多了,下面就开始进行编码工作
2. 编码
由于是多个文件的搜索,这里创建一个工具类来递归目录,找到这三个txt文件,我将这三个txt文件放在本地:D:\lucene\luceneData目录中
package com.jacksoft.lucene.util; import java.io.File; import java.util.List; public class FileUtils { public static void listFile(File f,List<String> fileList){ if(f.isDirectory()){ File[] files = f.listFiles(); for(int i=0;i<files.length ;i++) { listFile(files[i],fileList) ; } }else{ fileList.add(f.getAbsolutePath()); } } }
这样返回的fileList中就包含了我们需要的txt文件,当然这里还可以设置过滤器来指定后缀名。
接下来就是创建索引和查询的过程:
package com.jacksoft.lucene; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.List; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.TextField; import org.apache.lucene.document.Field.Store; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.index.IndexWriterConfig.OpenMode; import org.apache.lucene.queryparser.classic.QueryParser; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TopDocs; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.util.Version; import com.jacksoft.lucene.util.FileUtils; /** * 多文件搜索 * @Project Lucene-test * * @Filename MultLuceneTest2.java * * @author Jack.Zhou * * @Date 2013-8-29 * */ public class LuceneTest { private static final String QUERY_STR = "四川"; private static final String FILE_TARGET = "D:\\lucene\\luceneData"; private static final String FILE_INDEX = "D:\\lucene\\luceneIndex"; public static void main(String[] args) { try { LuceneTest t = new LuceneTest(); t.createIndex(); t.searchByKeyWords(QUERY_STR); } catch (Exception e) { e.printStackTrace(); } } /** * 创建索引 * @throws Exception */ private void createIndex() throws Exception{ Long startTime = System.currentTimeMillis(); File indexDir = new File(FILE_INDEX); Analyzer luceneAnalyzer = new StandardAnalyzer(Version.LUCENE_44); IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_44, luceneAnalyzer); config.setOpenMode(OpenMode.CREATE); Directory directory = FSDirectory.open(indexDir); IndexWriter indexWriter = new IndexWriter(directory, config); List<String> fileList = new ArrayList<String>(); FileUtils.listFile(new File(FILE_TARGET), fileList); for(String filePath : fileList){ System.out.println("文件:" + filePath + "正在被索引...."); String content = readFile(filePath); Document doc = new Document(); doc.add(new TextField("content", content.toString(), Store.YES)); doc.add(new TextField("path", filePath, Store.YES)); indexWriter.addDocument(doc); } indexWriter.close(); Long endTime = System.currentTimeMillis(); System.out.println("花费了" + (endTime - startTime) + "毫秒来创建索引文件"); } /** * 读取文件内容 * @param filePath * @return * @throws Exception */ private String readFile(String filePath) throws Exception{ @SuppressWarnings("resource") BufferedReader bufferedReader = new BufferedReader( new InputStreamReader(new FileInputStream(filePath))); StringBuffer content = new StringBuffer(); String str = null; while ((str = bufferedReader.readLine()) != null) { content.append(str).append("\n"); } return content.toString(); } private void searchByKeyWords(String keyWords) throws Exception{ IndexReader reader = DirectoryReader.open(FSDirectory.open(new File(FILE_INDEX))); IndexSearcher searcher = new IndexSearcher(reader); Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_44); QueryParser parser = new QueryParser(Version.LUCENE_44, "content",analyzer); Query query = parser.parse(keyWords); TopDocs results = searcher.search(query,1000); ScoreDoc[] score = results.scoreDocs; if (score.length == 0) { System.out.println("对不起,没有找到您要的结果。"); } else { System.out.println("查找["+QUERY_STR+"]有" + score.length + "个结果"); for (int i = 0; i < score.length; i++) { try { Document doc = searcher.doc(score[i].doc); System.out.print("这是第" + i + "个检索到的结果,文件名为:"); System.out.println(doc.get("path")); System.out.println("内容:\n" + doc.get("content")); } catch (Exception e) { e.printStackTrace(); } } } } }
代码中的常量可以通过文档来查看,运行后就可以看到搜索的结果了。
当然这里只是对txt进行搜索,你还可以对word,excel,pdf等文档进行搜索,前提是要将其内容读取出来,创建索引即可。
相关推荐
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
cmd-bat-批处理-脚本-MakeToolWindow.zip
“华为杯”第十八届中国研究生数学建模竞赛是一项全国性赛事,致力于提升研究生的数学建模与创新实践能力。数学建模是将实际问题转化为数学模型,并运用数学方法求解以解决实际问题的科学方法。该竞赛为参赛者提供了展示学术水平和团队协作精神的平台。 论文模板通常包含以下内容:封面需涵盖比赛名称、学校参赛队号、队员姓名以及“华为杯”和中国研究生创新实践系列大赛的标志;摘要部分应简洁明了地概括研究工作,包括研究问题、方法、主要结果和结论,使读者无需阅读全文即可了解核心内容;目录则列出各章节标题,便于读者快速查找;问题重述部分需详细重新阐述比赛中的实际问题,涵盖背景、原因及重要性;问题分析部分要深入探讨每个问题的内在联系与解决思路,分析各个子问题的特点、难点及可能的解决方案;模型假设与符号说明部分需列出合理假设以简化问题,并清晰定义模型中的变量和符号;模型建立与求解部分是核心,详细阐述将实际问题转化为数学模型的过程,以及采用的数学工具和求解步骤;结果验证与讨论部分展示模型求解结果,评估模型的有效性和局限性,并对结果进行解释;结论部分总结研究工作,强调模型的意义和对未来研究的建议;参考文献部分列出引用文献,遵循规范格式。 在准备竞赛论文时,参赛者需注重逻辑清晰、论述严谨,确保模型科学实用。良好的团队协作和时间管理也是成功的关键。通过竞赛,研究生们不仅锻炼了数学应用能力,还提升了团队合作、问题解决和科研写作能力。
希望这会对大家有用,共同发挥互联网精神!
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
cmd-bat-批处理-脚本-Run python script.zip
内容概要:本文详细介绍了利用Matlab/Simulink平台,通过无迹扩展卡尔曼滤波(UKF/EKF)进行路面附着系数估计的方法及其仿真功能。文中首先阐述了Dugoff轮胎模型的构建方法,强调了避免代数环的重要性,并提供了具体的模块连接方式。接着,描述了7自由度整车模型的搭建步骤,特别是质心加速度和轮速之间的耦合关系。最后,深入探讨了UKF和EKF滤波器的配置细节,包括状态变量选择、观测值设定以及协方差矩阵的初始化等关键参数调整。仿真结果显示,在80km/h的速度下,UKF相比EKF的均方误差降低了18%,但CPU耗时增加了40%。 适合人群:从事车辆控制系统研究的专业人士,尤其是对卡尔曼滤波有一定了解的研究人员和技术人员。 使用场景及目标:适用于需要精确估计路面附着系数的应用场合,如汽车电子稳定程序(ESP)的设计与优化。通过提高附着系数估计的准确性,可以有效提升车辆行驶的安全性和稳定性。 其他说明:文章不仅提供了理论指导,还给出了实际操作的具体步骤和注意事项,帮助读者更好地理解和应用相关技术。
实体建模技术研究进展.zip
基于4G通信的高负载电动汽车远程监控平台软件设计与开发.zip
IMG_20250521_201207.jpg
cmd-bat-批处理-脚本-数学-isInteger.zip
基于改进DeepLabv3+的高分辨率遥感影像屋顶提取方法.pdf
cmd-bat-批处理-脚本-post-install.zip
遗传算法优化BP神经网络(GABP)是一种结合了遗传算法(GA)和BP神经网络的优化预测方法。BP神经网络是一种多层前馈神经网络,常用于模式识别和预测问题,但其容易陷入局部最优。而遗传算法是一种模拟自然选择和遗传机制的全局优化方法,能够有效避免局部最优 。GABP算法通过遗传算法优化BP神经网络的权重和阈值,从而提高网络的学习效率和预测精度 。 种群:遗传算法中个体的集合,每个个体代表一种可能的解决方案。 编码:将解决方案转化为适合遗传操作的形式,如二进制编码。 适应度函数:用于评估个体解的质量,通常与目标函数相反,目标函数值越小,适应度越高。 选择:根据适应度保留优秀个体,常见方法有轮盘赌选择、锦标赛选择等。 交叉:两个父代个体交换部分基因生成子代。 变异:随机改变个体的部分基因,增加种群多样性。 终止条件:当迭代次数或适应度阈值达到预设值时停止算法 。 初始化种群:随机生成一组神经网络参数(权重和阈值)作为初始种群 。 计算适应度:使用神经网络模型进行训练和预测,根据预测误差计算适应度 。 选择操作:根据适应度选择优秀个体 。 交叉操作:对选择的个体进行交叉,生成新的子代个体 。 变异操作:对子代进行随机变异 。 替换操作:用新生成的子代替换掉一部分旧种群 。 重复步骤2-6,直到满足终止条件 。 适应度函数通常以预测误差为基础,误差越小,适应度越高。常用的误差指标包括均方根误差(RMSE)或平均绝对误差(MAE)等 。 GABP代码中包含了适应度函数的定义、种群的生成、选择、交叉、变异以及训练过程。代码注释详尽,便于理解每个步骤的作用 。 GABP算法适用于多种领域,如时间序列预测、经济预测、工程问题的优化等。它特别适合解决多峰优化问题,能够有效提高预测的准确性和稳定性 。
太阳高度角和方位角建模及核桃树阴影变化分析.pdf
cmd-bat-批处理-脚本-param2.zip
Uniapp原生适配日期时间选择器,可动态设置分钟显示间隔
cmd-bat-批处理-脚本-日期-W32DOW.zip
logo ant design 的
2025年自动化X光检查机项目大数据研究报告.docx