`

SOLR: tika with OCR engine

    博客分类:
  • Solr
 
阅读更多

I want to parse the content not just the metadata of a jpg picture. 

The following code is the test class

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.ocr.TesseractOCRParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;

public class JpegParse {

    public static void main(final String[] args) throws IOException, SAXException, TikaException, InterruptedException {
	File file = new File("/path/to/menu.jpg");

	BodyContentHandler handler = new BodyContentHandler();

	Metadata metadata = new Metadata();
	FileInputStream inputstream = new FileInputStream(file);
	ParseContext pcontext = new ParseContext();

	TesseractOCRConfig config = new TesseractOCRConfig();
	config.setLanguage("chi");

	config.setTesseractPath("/path/to/tesseract-ocr");
	pcontext.set(TesseractOCRConfig.class, config);

	TesseractOCRParser JpegParser = new TesseractOCRParser();
	pcontext.set(TesseractOCRParser.class, JpegParser);

	JpegParser.parse(inputstream, handler, metadata, pcontext);

	System.out.println("Metadata of the document:");
	String[] metadataNames = metadata.names();
	for (String name : metadataNames) {
	    System.out.println(name + ": " + metadata.get(name));
	}
	System.out.println("Contents of the document:" + handler.toString());
    }
}

 

 Note:

 config.setTesseractPath("/path/to/tesseract-ocr");

 must be parent dir includes  tessdata dir. 

And tesseract    cmd must be linked in this dir

#ln -s /usr/local/bin/tesseract   /path/to/tesseract-ocr

 

 

Preferences

 

https://wiki.apache.org/tika/TikaOCR

http://www.kaiyuanba.cn/html/1/131/227/7891.htm

分享到:
评论

相关推荐

    node-solr:Node.js 的 Solr 模块

    Node.js 的 Solr 模块参考Node.js: : Solr: : 使用npm test运行测试。 如果您没有在 127.0.0.1:8983 上运行 Solr,请编辑“test/common.js”。使用示例请参阅使用测试。 这是一个快速示例: var solr = require ( ...

    puppet-ispconfig_solr:在 IspConfig 环境中使用的 solr 包装器

    == 定义:ispconfig_solr::instance 这个定义是 solr::instance 的包装器。 它创建一个 solr 实例并配置它以在 IspConfig 环境中使用 == 参数: [ instance_name ] solr 实例的名称。 实例将被称为 solr-$...

    docker-solr:用于Solr的Docker构建,用于管理官方Docker Hub solr映像

    什么是Apache Solr:trade_mark:? Apache Solr具有高度的可靠性,可扩展性和容错性,可提供分布式索引,复制和负载平衡查询,自动故障转移和恢复,集中式配置等。 Solr为许多世界上最大的互联网站点提供搜索和导航...

    solr:Allegro Common Lisp与Solr的接口

    这是Allegro CL的Solr绑定。 Solr是来自Apache Lucene项目的开源自由文本索引/搜索平台。 有关详细信息,请参见以下URL。 该软件包允许Allegro CL应用程序与正在运行的Solr服务器通信,添加和删除文档以及运行查询以...

    mir-solr:MIR SOLR配置

    mir-solr:MIR SOLR配置

    solr -8.11.1.zip 文件

    solr -8.11.1.zip 文件

    lucene-solr:Apache Lucene和Solr开源搜索软件

    Solr: : 用Gradle构建 建筑Lucene 参见 。 建筑太阳能 首先,您需要设置开发环境(OpenJDK 11或更高版本)。 我们假设您知道如何获取和设置JDK-如果您不了解,那么我们建议您从开始并进一步了解

    docker-compose 构建以solr8.11.1为基础的含中文分词器的镜像

    以solr8.11.1为基础镜像,使用docker-compose构建含中文分词器的新的镜像 文件夹内含有docker-compose.yml脚本、Dockerfile脚本以及构建镜像所需中文分词器ik-analyzer-8.5.0.jar、所有扩展词和停用词相关的配置文件...

    mod_search_solr:用于 Solr 支持的 Zotonic 模块

    它内置了 Solr:只需安装此模块即可。 设置完成后,Zotonic 会将其保存的每个资源推送到 Solr,以便可以查询数据库。 要将整个站点重新索引到 Solr,请按管理员中的“重建搜索索引”按钮。 安装 您需要为每个要为...

    ansible-role-solr:Ansible角色-Apache Solr

    ansible-role-solr:Ansible角色-Apache Solr

    java8看不到源码-ansible-role-solr:yauh.solr-用于设置Solr的Ansible角色

    看不到源码Solr 引导程序 设置 Solr 搜索平台的 Ansible 角色 要求 系统上需要有Java,推荐角色yauh.java8。 角色变量 以下变量可与 solr 角色一起使用: solr_source: http://apache.openmirror.de/lucene/solr # ...

    Laravel-4-Solr:Apache Solr简单查询客户端

    Laravel 4 Apache Solr Laravel 4软件包提供了一个接口,用于通过其静态接口使用(查询) 。安装首先通过Composer安装此软件包。 编辑项目的composer.json文件,以要求davispeixoto/laravel-4-solr 。 "require": {...

    solr5.4.0完整包

    Solr 依存于Lucene,因为Solr底层的核心技术是使用Lucene 来实现的,Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。...所以说,一句话概括 Solr: Solr是Lucene面向企业搜索应用的扩展。

    Solr:将solr与spring boot一起使用

    Spring Boot和Solr 在这个示例中,我们看到如何将spring boot与solr一起用作数据库: Sprint Boot平板电脑索尔我们要做的第一件事是在solr de vehicle中创建模式以保存车辆的信息。 使用此命令,我们将使用bash脚本...

    nodebb-plugin-solr:使用Apache Solr全文搜索NodeBB

    Solr搜索NodeBB : Solr(发音为“ solar”)是来自Apache Lucene项目的开源企业搜索平台。 它的主要功能包括全文搜索,命中突出显示,多面搜索,动态聚类,数据库集成以及丰富的文档(例如Word,PDF)处理。 此...

    solr:Apache Solr开源搜索软件

    阿帕奇·索尔(Apache Solr) Apache Solr是一个用Java编写并使用的企业搜索平台。 主要功能包括全文搜索,索引复制和分片以及结果分面和突出显示。在线文件此自述文件仅包含基本的安装说明。 有关更全面的文档,请...

    vagrant-hbase-solr:在制品

    流浪汉-hbase-solr 在制品 λ vagrant provision ==> default: Running provisioner: shell... ==> default: Setting javahome to /usr/lib/jvm/java-7-oracle/ ==> default: stdin: is not a tty ==> default: ...

    docker-solr:Xenit特定的Alfresco Solr映像

    Docker中的Solr Alfresco专用的Solr docker映像,与高于4.2的Alfresco版本兼容。 创建的图像 [ alfresco-solr1 ] = solr1图片,使用tomcat [ alfresco-solr4 ] = solr4图像,使用tomcat [ alfresco-solr6 ] =使用...

    开源bbs源码java-solr:索尔

    安装好ik分词器与拼音分词器的solr 版本: jdk1.8 solr6.0.1 tomcat8 使用说明 clone 代码 https://github.com/tomoya92/solr.git 打开 apache-tomcat-8.0.35/webapps/solr/WEB-INF/web.xml 修改 {solr_home} 为...

    hive-solr:使用Hive读写solr

    hive-solr 使用Hive读写solr (一)Hive+Solr简介 Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等。 ...

Global site tag (gtag.js) - Google Analytics