使用tika解析各种类型的文本文件 - ···· - ITeye博客

`

alleni123

浏览: 365708 次
来自: 北京

最近访客更多访客>>

swx316

aininim

wangcaster

dongguangming88

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wxpsjm：好直接
HV000030: No validator could be found for type: java.lang.Integer.
wxhhbdx：学习了，对新手来说很不错的教程。
SpringMVC入门（二）数值传递
xgcai：正好在学dwr
DWR入门（二）用户实例

使用tika解析各种类型的文本文件

博客分类：

lucene

阅读更多

1. 导入tika-app-1.5.jar

https://tika.apache.org/download.html

2.1
方法1：


import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;


public String fileToTxt(File f){
		InputStream is=null;
		try
		{
			Parser parser=new AutoDetectParser();
			is=new FileInputStream(f);
			
			ContentHandler handler=new BodyContentHandler();
			
			ParseContext context=new ParseContext();
			context.set(Parser.class, parser);
			parser.parse(is, handler, new Metadata(), context);

                        for(String name:metadata.names()){
				              System.out.println(name+":"+metadata.get(name));
				
				
			}
			return handler.toString();
		}

IndexUtil util=new IndexUtil();
		 System.out.println(util.fileToTxt(new File("d:/1.doc")));

2.2 方法2:

public String tikaTool(File f){
		Tika tika=new Tika();
		try
		{
			return tika.parseToString(f);
		}
		catch (IOException e)
		{
			
			e.printStackTrace();
		}
		catch (TikaException e)
		{
			
			e.printStackTrace();
		}
		return null;
	}

这个方法很简单。直接就可以返回文本内容。

分享到：

solr命令窗口关闭指令 | mmseg4j分词器导致的java.lang.AbstractMe ...

2014-04-13 16:09
浏览 1845
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

tika-app-1.14 文本解析文件内容抽取: Tika是Apache下开源的文档内容解析工具，支持上千种文档格式（如PPT、XLS、PDF）。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现，可用于搜索引擎索引、内容分析、转换等场景。

xq-tika:XQuery 3.0模块，用于公开支持1000多种文件类型的Apache Tika文件解析功能！: xq-tika XQuery 3.0（Java绑定）模块，用于将解析功能公开给xquery。 Tika当前支持超过1000种文件类型，包括流行的Office格式。... 执行后，将自动检测文件类型，并使用Tika库返回文本内容。 par

tika：Apache Tika的镜像: 欢迎使用Apache Tika Apache Tika TM是使用现有解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包。 Tika是的项目。 Apache Tika，Tika，Apache，Apache Feather徽标和Apache Tika项目徽标是The Apache...

Attachment 实现全文检索: 插件使用 Apache Tika 库来解析和提取二进制文件的内容，因此可以提取并存储内容、元数据以及格式化的文本数据。这使得 Elasticsearch 可以轻松地对文档执行全文搜索以及文档内容的其他分析操作。在 Elasticsearch...

tika-app-1.19.1.jar: tika-app.1.19.1.jar,轻松提取文本正文的工具。。。。

CTAKESContentHadler:这是将 Apache cTAKES 支持添加到 Apache Tika 的初步工作: 是一个工具包，用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。是一种自然语言处理系统，用于从电子病历临床自由文本中提取信息。 CTAKESContentHandler允许在 Tika 中执行以下步骤： ...

poi-3.7 三个主要包: 对于更高级的文本提取需求，包括富文本提取（如格式和样式）以及XML和HTML输出，Apache POI与Apache Tika紧密合作，为所有项目支持的文件格式提供POI供电的Tika解析器。如果您是通过交钥匙文本提取（包括最新支持...

Nutch公开课从搜索引擎到网络爬虫: 课程背景：Nutch诞生于2002年8月，是Apache旗下的一个用Java实现的开源搜索引擎项目，...Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本，Gora支持把大数据持久化到多种存储实现。

Simple-Search-Engine-with-Apache-Lucene-Core: 使用Apache Lucene核心的简单搜索引擎 ... 1-html解析器（将html文档解析为文本文档） 2-文档索引 3-拼写校正 4-查询建议依存关系： 1- Apache Lucene 2- Tika库（HTML解析器库） 3-卢克指数工具箱

Apache Nutch v2.3.1: Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本，Gora支持把大数据持久化到多种存储实现，Crawler Commons是一个通用的网络爬虫组件。大数据这个术语最早的引用可追溯到Nutch。...

Apache Nutch v1.15: Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本，Gora支持把大数据持久化到多种存储实现，Crawler Commons是一个通用的网络爬虫组件。大数据这个术语最早的引用可追溯到Nutch...

机器学习和自然语言处理: 首先我们要意识到预处理的重要性。在大数据的背景下，...Tika内容抽取工具，其强大之处在于可以处理各种文件，另外节约您更多的时间用来做重要的事情。Tika是一个内容分析工具，自带全面的parser工具类，能解析基本

unipdf:Golang PDF库，用于创建和处理PDF文件（pure go）: 从PDF文件中提取文本文本提取支持，提供大小，位置和格式信息 PDF至CSV说明了从PDF中提取表格数据。提取具有坐标的图像图片转PDF 将图像添加到页面压缩和优化PDF 水印PDF档案高级页面处理：将4页放在1页上 ...

ctakesparser-utils: 提供了一个tika-config，可启用cTAKES解析器并将其映射到PDF和IsaTab文档。包含一个cTAKESParser.properties文件，该文件配置有关cTAKES的运行方式的各种属性，并存储cTAKES所需的统一医学语言系统（UMLS）的登录...

elastic-indexer:CENDARI 项目中 ElasticSearch 的索引器: 使用（扩展）Tika 的结果来解析文件并返回文本内容和元数据。结果将转换为 DocumentInfo 类型。通过发送到elasticsearch来索引DocumentInfo中的数据在elasticsearch中搜索文档如果需要，在 elasticsearch 中...

java多商户分销系统源码-ddf:DDF分布式数据框架-一个开源、模块化的集成框架: 用于从常见文件格式（Office、PDF 等）中提取元数据的 Tika 解析器插件支持所有操作的预处理和后处理事件通知指标安全 DDF 附带的 Web 服务安全 (WSS) 功能集成在整个系统中 SAML 2.0 Web 浏览器 S

Apache Nutch网络爬虫-其他: Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本，Gora支持把大数据持久化到多种存储实现，Crawler Commons是一个通用的网络爬虫组件。</p><p>大数据这个术语最早的引用可追溯到...

Apache Nutch-其他: Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本，Gora支持把大数据持久化到多种存储实现，Crawler Commons是一个通用的网络爬虫组件。</p><p>大数据这个术语最早的引用可追溯到...

Global site tag (gtag.js) - Google Analytics