阅读更多

6顶
0踩

开源软件
Apache Tika 1.0 正式发布了。



Apache Tika是一种利用现有的解析类库,从不同格式的文档中(例如HTML、PDF、Doc等)检测和提取元数据、结构化文本内容的工具包。

其功能包括:

  • 检测文档的类型、字符编码、语言以及其他现有文档的属性。
  • 提取结构化的文本内容。
  • 支持20多种常见的文件格式,包括各种Office文档格式、压缩格式、网页格式、文本格式等。
Apache Tika主要用于搜索引擎以及其他内容索引和分析工具,其编程语言为Java。Tika项目于2007年3月启动,最开始是Apache Lucene(全文检索引擎工具包)的子项目,现在已经成为了Apache组织的顶级开源项目。

Apache Tika 1.0在之前版本基础上,针对API、配置、OSGi以及各种文档(包括RTF、MS Office、PDF、OpenOffice等文档)作了大量改进。

详细改进参阅:http://www.apache.org/dist/tika/CHANGES-1.0.txt

项目官网:http://tika.apache.org/

下载地址:http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.0-src.zip

  • 大小: 21.7 KB
6
0
评论 共 3 条 请登录后发表评论
3 楼 stta04 2011-12-29 21:38
1.0和0.9版本变化还不小啊,搞得人都找+_+了。
2 楼 yuhe 2011-11-10 09:34
是不错,就是jar太大,23M呢。
1 楼 hu437 2011-11-09 17:33
这个不错~~

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 本人整理的xpcom资料合集

    本人近两年整理的xpcom资料合集,包括接口资料以及相应教学资料

  • XPCOM--LINUX下的组件开发技术

    XPCOM LINUX下的组件开发技术   COM技术作为微软推行的一种组件技术,在WINDOWS平台站有重要地位,在模块重用,跨语言通信等方面都能见到其身影。但今天给我要介绍的是LINUX下的COM实现----XPCOM,这是MOZILLA浏览器项目中所使用的基本技术,我们可以用C++制作XPCOM组件,在C++客户程序或MOZILLA浏览器中通过JAVASCRIPT脚本来调用组件,从而实现软件

  • XPCOM指南-1_XPCOM概述

    XPCOM概览 本章为XPCOM的快速导览,对XPCOM和组件开发的基础思想和技术做了说明,这些说明从较高层次来描述的,只是为了熟悉一下本指南需要的一些背景知识。 1. XPCOM 解决方案 XPCOM ( Cross Platform Component Object Model),是一个跨平台的软件框架,它使开发人员把一个大的软件工程分解成各个小的独立的模块,然后再运行

  • 什么是XPCOM

    XPCOM解决方案 XPCOM允许开发者把软件项目分解成模块,这就是所谓的组建,在运行时被组装在一起。XPCOM的目标就是使得各个模块可以独立开发。为了组件在程序中的互操作性,XPCOM把组件的实现和接口分离。但是XPCOM也提供一些工具和库用于加载和操作组件和服务,使得开发者能写出支持版本和跨平台的代码,这样组件就可以被替换或升级而不是重建程序。使用XPCOM,开发者开发的组件可以在不同的

  • XPCOM指南-5_使用XPCOM实用工具简化你的生活

    本章回顾你已经在教程第一部分建立的代码 (see webLock1.cpp in the previous chapter) 并且使用 XPCOM 工具类让代码更容易更有效. 同时,介绍一个在XPCOM和Gecko API中广泛使用基本的字符串类型。 作为起点,第一部分描述可以替代webLock1.cpp中的很多代码的C++ 宏. 很多用来完成软件组织和组件注册的代码都可以缩减为精简的数据结构和

  • xpcom:思想理解,思考总结

    1.xpcom的思想核心,将接口与实现分开,接口写在固定的idl文件。具体的实现则是相应的c++或js文件。 这样的目的是使得所定义的接口可在全范围内使用,只要引了.idl???是这样吗? 2.所以创建一个xpcom 组件的方法是什么呢??? idl file. js implement file.这是实现部分???如何使用呢?? 通过xpcom.component.xxx来注册使用。所以...

  • 使用XPCOM

    开始使用XPCOM的最好方法是,看客户端怎么使用XPCOM。尤其是当你要设计接口给其他人使用时。 像Mozilla浏览器的应用程序复杂,模块化的客户XPCOM组件,实际上,几乎用到的所有的功能,包括导航、窗口管理、cookies管理,书签, 安全、搜索、渲染和其他特性都是定义为XPCOM组件并通过接口访问。Mozilla由XPCOM组件构成。本章演示了Mozilla怎么使用XPC

  • 创建 XPCOM 组件:XPCOM 简介

     LINUX下的组件开发技术 COM技术作为微软推行的一种组件技术,在WINDOWS平台站有重要地位,在模块重用,跨语言通信等方面都能见到其身影。但今天给我要介绍的是LINUX下的COM实现----XPCOM,这是MOZILLA浏览器项目中所使用的基本技术,我们可以用C++制作XPCOM组件,在C++客户程序或MOZILLA浏览器中通过JAVASCRIPT脚本来调用组件,从而实现软件模块的复用。 

  • 解决Firefox无法打开问题,提示Couldn’d load XPCOM

        最近通过emerge安装了Eclipse,结果把libjpeg.so也作为依赖更新了,后来打开firefox,半天没有反应,在shell中打开,提示Couldn’d load XPCOM。我又试了一下别的程序,Konqueror、Seamonkey、Galeon、Epiphany、Thunderbird、Webhttrack都无法打开了,Konqueror还好,有提示,说找不到libjpe

  • 第一章:什么是xpcom(1)

          CHAPTER 1 What Is XPCOM?     This is a book about XPCOM. The book is written in the form of a tutorial about creating XPCOM components, but it covers all major aspects, concepts, and termi

  • xpcom简介

    xpcom可以看作是开源版的Microsoft COM,但是目前应用的范围比较有限,主要是firefox的gecko引擎在使用。xpcom不是浏览器的插件,而是浏览器本身。火狐浏览器就是一堆的xpcom组件构成的。在火狐里面,基本上所有与浏览器相关的功能都被定义成了组件的形式,包括网页间的跳转,窗口管理,cookie 管理,书签,安全,搜索,润色等等的其他功能, 这些功能都是由组件的接口提供的...

  • 利用C++创建XPCOM组件(英文)

    转自:http://www.iosart.com/firefox/xpcom/About This is a step-by-step tutorial on creating, building and registering an XPCOM component on Linux and MS Windows. Download The complete source

  • 论文研究-XPCOM组件的研究与实现 .pdf

    XPCOM组件的研究与实现,万定生,周沫,随着面向对象技术的不断进步,组件这种技术逐渐产生并且不断发展。本文分析了XPCOM组件的构成原理,并且与微软的COM技术进行比较;�

  • XPCOM实例供linux学习

    xpcom实例大家分享下供linux学习

  • XPCOM--LINUX下的组件开发技术的一些补充与说明

    XPCOM--LINUX下的组件开发技术的一些补充与说明   原文出自:《世界商业评论》ICXO.COM ( 日期:2004-07-14 13:56) --------------------------------------------------------------------------------   boise  bjgxjob@163.com-------------------

  • LoadRunner 11 + Firefox24 录制后有 event,无脚本问题

    本地环境 : LoadRunner 11 + Firefox24 录制时有 event,停止录制后,无法生成脚本问题。   其他环境 IE11 、 win7  64位。 解决办法:在 IE浏览器 高级设置中   把“启用第三方浏览器扩展*”勾去掉,可解决脚本无法自动生成。

  • yum groupinstall "Development Tools" 批量安装软件 linux

    注:可以通过yumgrouplist来查看可能批量安装哪些列表从Windows转到Linux下面,一个不习惯的地方就是在图形界面下安装和删除软件的时候非常缓慢。但是如果你掌握了用yum的命令行模式进行配置程序,你肯定会从心底喜欢上这个强大的工具。因为yum提供了查找、安装、删除某一个、一组甚至全部软件包的命令,而且命令简洁而又好记。yum的命令形式一般是如下:yum...

  • 用Visual Studio创建XPCOM组件

    一、开发环境设置下载XULRunner和XULRunner SDK,当前版本是1.8.1.3。可以在http://releases.mozilla.org/pub/mozilla.org/xulrunner/releases/找到最新的版本。解压到一个目录下,我的目录结构: 这个SDK里还需要两个dll文件,下载wintools.zip,从buildtools/windows/bin/x86里拷贝

Global site tag (gtag.js) - Google Analytics