Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
作为一个开放源代码项目,Lucene从问世之后,引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用,甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。
Lucene提供了一个全文检索引擎得架构,而没有提供各种类型文档的全文检索功能,用户需要利用其它软件工具包来提取各种类型文档的内容,然后再利用Lucene的工具包来建立索引。
下面简单介绍一下能够配合Lucene使用的,比较著名的,能够提取各种常见类型文档的工具包。
Apache POI(支持word,excel,powerpoint,visio等格式)
Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程式对Microsoft Office格式档案读和写的功能。它可以配合Lucene,建立包括doc,docx,xls,xlsx,ppt,pptx等格式的文件的索引。
HSSF - 提供读写Microsoft Excel格式档案的功能。
XSSF - 提供读写Microsoft Excel OOXML格式档案的功能。
HWPF - 提供读写Microsoft Word格式档案的功能。
HSLF - 提供读写Microsoft PowerPoint格式档案的功能。
HDGF - 提供读写Microsoft Visio格式档案的功能。
网址:http://poi.apache.org/
PDFBox(支持pdf格式)
PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。它可以配合Lucene来建立PDF文档的索引。
它具有以下特性:
将一个PDF文档转换输出为一个文本文件。
可以从文本文件创建一个PDF文档。
加密/解密PDF文档。
向已有PDF文档中追加内容。
可以从PDF文档生成一张图片。
可以与Jakarta Lucene搜索引擎的整合。
网址:http://sourceforge.net/projects/pdfbox/
JTidy(支持html格式)
JTidy 是 HTML Tidy 用Java语言实现的版本,提供了一个HTML的语法检查器和很好的打印功能。JTidy可以用来清除格式不好和不对的 HTML。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。它可以配合Lucene来建立HTML文档的索引。
网址:http://sourceforge.net/projects/jtidy/
分享到:
相关推荐
在Java开发中,Lucene被广泛用于实现文件的全文检索功能,包括对doc、docx、pdf、txt等常见格式文档的文本内容检索。在本文中,我们将探讨如何使用Lucene对这些文件类型进行全文检索的实现。 首先,为了实现全文...
在Lucene中,实现全文搜索涉及到以下几个关键概念: 1. **Document**:是Lucene中表示索引目标的基本单元,可以代表一个文件、一条记录或任何可被索引的数据。开发者可以通过`Document`对象来组织要索引的信息。 2...
Lucene 是一个开源的全文检索库,由 Apache 软件基金会开发,被广泛应用于构建高效的全文搜索引擎。它提供了一个简单但功能强大的API,可以方便地集成到各种应用程序中,支持Java语言,并且可以跨平台运行。Lucene的...
Lucene是Apache软件基金会的一个项目,它提供了一个高性能、可扩展的信息检索库,广泛应用于各种搜索应用和信息管理系统中。这个文档集成了Lucene的核心概念、API使用、最佳实践以及常见问题解答,对于开发者来说是...
本篇将深入探讨如何利用Lucene实现对Word、PPT、Excel、PDF和TXT等常见文件类型的全文检索。 首先,我们要理解什么是全文检索。全文检索是指在文档集合中,通过搜索文档中的所有词汇,找出包含特定查询词的文档。与...
它提供了一个简单但功能强大的API,用于在各种数据源中进行高效的全文检索。Lucene不仅用于网站搜索引擎,还广泛应用于企业级应用程序,帮助用户快速找到所需的信息。 1. **Lucene的基本概念** - **索引**: Lucene...
本系统是基于lucene框架开发的全文搜索引擎,能实现txt、doc、pdf、excel、ppt等常见文档的全文检索,可以直接部署到tomcat下即可运行,需要研究lucene或实际应用lucene框架的朋友,欢迎下载。
在这个“Lucene全文检索的各种例子”中,我们将探讨如何使用不同的分词器,如ikAnalyzer和smartChineseAnalyzer,来实现中文文本的索引和搜索。 首先,让我们深入理解一下Lucene。Lucene的核心功能包括文档的索引和...
总之,Lucene作为强大的全文检索工具,其API文档和相关总结是学习和应用的基础。从2.3到3.5.0的版本升级,不仅带来了功能增强,也反映了Lucene在搜索领域的持续发展。对于开发者来说,深入理解和熟练运用这些知识点...
Lucene是一个强大的全文搜索引擎库,广泛应用于各种信息检索系统中。在Lucene5版本中,它不仅提供了基础的文本搜索功能,还支持了拼音搜索,这极大地提高了中文搜索的便利性和准确性。本文将围绕“Lucene5学习之拼音...
- **初期阶段**:Lucene最初作为一款简单的文本检索库,主要用于帮助开发者实现基本的文档搜索功能。 - **扩展阶段**:随着技术的发展,Lucene不断引入新的特性,如更复杂的分析器、高级搜索技巧等。 - **成熟...
6. **实战应用**:提供示例代码展示如何在实际项目中集成Lucene,处理常见的检索需求,比如搜索建议、近似搜索等。 **标签:** - **源码**:暗示文章可能包含对Lucene源代码的分析,这对于开发者了解其工作原理和...
Lucene.Net是一个开源的全文搜索引擎库,它是Apache Lucene项目在.NET平台上的实现,由DotLucene发展而来,广泛应用于各种信息检索和文本挖掘场景。这个资料包包含了Lucene.Net 2.0的源码和相关文档,对于想要深入...
Cutting创建Lucene的目的是为了简化在各种规模的应用程序中实现全文检索的复杂性。自2001年起,Lucene成为了Apache基金会的一部分,并且随着时间的推移,许多知名的Java项目如Jive、Cocoon和Eclipse都采用了Lucene...
Apache Lucene是一个高性能、全文本搜索库,被广泛用于构建自定义的搜索引擎。它提供了丰富的搜索功能,包括分词、索引、查询解析、排序等。在这个项目中,我们将深入探讨如何使用Java和Lucene来创建一个简单的搜索...
Lucene是一个开源的全文检索库,由Apache软件基金会开发,广泛应用于各种搜索场景。在本文中,我们将深入探讨Lucene 3.6版本中的核心概念和技术,以帮助你更好地理解和应用这一强大的全文检索工具。 一、Lucene的...
Lucene被广泛应用于各种需要全文检索的项目中,如网站、文档管理、内容管理系统等。本压缩包包含了Lucene的一些学习实例和相关文档,旨在帮助对Lucene感兴趣的开发者更好地理解和掌握其用法。 首先,我们来看看...
### Lucene笔记:全文检索的实现机制 #### 全文检索与中文支持 在全文检索领域,Lucene作为一款开源的高性能全文检索引擎,被广泛应用于各种场景之中。特别是对于中文用户而言,如何确保Lucene能够高效地支持中文...
**Lucene电子文档搜索**...通过这个Demo,开发者可以深入理解Lucene.Net的工作原理,并将其应用于实际项目中,实现高效的全文搜索功能。无论是小型的个人项目还是大型的企业级应用,Lucene.Net都能提供强大的搜索支持。