安装Tesseract-OCR
准备工作:
编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)
1
yum install gcc gcc-c++ make
依赖的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)
1. autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通过yum安装:
1
yum install autoconf automake libtool
2
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2. leptonica 需要源码编译安装
参考资料:
http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113
http://www.leptonica.org/source/README.html
下载leptonica 包: http://www.leptonica.org/source/leptonica-1.68.tar.gz
解压后切换到leptonica-1.68 根目录
1
./configure
2
make
3
make install
tesseract安装:
依赖安装完毕后开始安装tesseract
下载tesseract-3.01 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz
解压后切换到tesseract-3.01 根目录
(如果在make时遇到类似strngs.h:1: error: stray '\357' in program 的错误,请将tesseract-3.01/ccutil/strngs.h 文件转为ANSI 编码保存,再重新编译)
1
./autogen.sh
2
./configure
3
make
4
make install
5
ldconfig
tesseract英文语言包安装:
下载tesseract-3.01 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz
解压后将tesseract-ocr/tessdata 下的所有文件全部拷贝到/usr/local/share/tessdata 下
安装完毕.
测试一下:
切换到解压后的tesseract-3.01 根目录(这个目录下有一个自带的phototest.tif 可以做测试用)
命令行:
1
tesseract phototest.tif phototest -l eng
输出:
1
Tesseract Open Source OCR Engine v3.01 with Leptonica
2
Page 0
这时应该在当前目录生成一个phototest.txt 文本文件,内容就是phototest.tif 显示的文字.
准备工作:
编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)
1
yum install gcc gcc-c++ make
依赖的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)
1. autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通过yum安装:
1
yum install autoconf automake libtool
2
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2. leptonica 需要源码编译安装
参考资料:
http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113
http://www.leptonica.org/source/README.html
下载leptonica 包: http://www.leptonica.org/source/leptonica-1.68.tar.gz
解压后切换到leptonica-1.68 根目录
1
./configure
2
make
3
make install
tesseract安装:
依赖安装完毕后开始安装tesseract
下载tesseract-3.01 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz
解压后切换到tesseract-3.01 根目录
(如果在make时遇到类似strngs.h:1: error: stray '\357' in program 的错误,请将tesseract-3.01/ccutil/strngs.h 文件转为ANSI 编码保存,再重新编译)
1
./autogen.sh
2
./configure
3
make
4
make install
5
ldconfig
tesseract英文语言包安装:
下载tesseract-3.01 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz
解压后将tesseract-ocr/tessdata 下的所有文件全部拷贝到/usr/local/share/tessdata 下
安装完毕.
测试一下:
切换到解压后的tesseract-3.01 根目录(这个目录下有一个自带的phototest.tif 可以做测试用)
命令行:
1
tesseract phototest.tif phototest -l eng
输出:
1
Tesseract Open Source OCR Engine v3.01 with Leptonica
2
Page 0
这时应该在当前目录生成一个phototest.txt 文本文件,内容就是phototest.tif 显示的文字.
转自:http://blog.csdn.net/cxf7394373/article/details/20370635
相关推荐
linux 安装图像识别系统 tesseract-ocr-3.02.02(含中文、英文语言包) 含所需包 leptonica-1.71.tar.gz tesseract-ocr-3.02.02.tar.gz chi_sim.traineddata eng.traineddata
tesseract-OCR识别开源项目的GUI版本,Java编写,此版本是Linux版本
Linux下安装tesseract-ocr教程及相关资源包
tesseract-ocr linux安装包+离线依赖包+中文语言包+示例截图+离线安装文档。2020-10-28 亲测可用,截图为证。tesseract最新版本4.1.1。 文档:https://blog.csdn.net/zhaohuihua/article/details/109340779
一个Google支持的开源的OCR图文识别开源项目。去持多语言(当前3.02 版本支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。使用中Tesseract 的识别率非常高。可以参考网上的相关资料进行对...
This package contains the Tesseract Open Source OCR Engine. Originally developed at Hewlett Packard Laboratories Bristol and at Hewlett Packard Co, Greeley Colorado, all the code in this distribution ...
tesseract-OCR识别开源项目的源码版本,C++编写,此版本是源码版本
安装参考:...tesseract-ocr-3.02.02(含中文、英文语言包) 含所需包 leptonica-1.71.tar.gz tesseract-ocr-3.02.02.tar.gz chi_sim.traineddata eng.traineddata
版本leptonica-1.78.0,https://pan.baidu.com/s/11cVoPhtu3q_a6-avCdNuqA
OCR识别开源库tesseract-3.00,tesseract-3.00可以交叉编译在ARM上使用,也可以在linux下使用
图片文字的OCR识别有一款开源原件tesseract-ocr,最初是在linux上,当然现在也有windows版本,现在发展到4.0版本。
linux系统下搭建Tesseract-OCR环境所需安装包、中文语言包及训练所需软件
tesseract arm安装部署 其中包含: rpm包 中文识别包 readme文件
tesseract-ocr linux安装使用文档详情见doc.txt 服务器使用jar:打包放到服务器中,使用java -cp xxx.jar com.hwp.ocr.Test执行(注意图片路径及生成output的路径配置) Apache-2.0 license
tesseract-ocr 字符识别总结(Linux windows都可以), 博客里面有对应的软件,和语言包如果需要可以去下载
tesseract-ocr的安装教程, 在Linux安装下的步骤,私人整理
用pip安装tesseract-ocr: $ pip install tesseract-ocr 基本用法 import tesseract_ocr tesseract_ocr . text_for_filename ( 'code.tiff' ) tesseract_ocr . text_for_bytes ( open ( 'code.tiff' , 'rb' ). read...
去持多语言(版本支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。使用中Tesseract 的识别率非常高。可以在项目网站下https://github.com/tesseract-ocr(以前在...
当前版本为2.0x版 图片文字的OCR识别有一款开源原件tesseract-ocr,最初是在linux上,当然现在也有windows版本,现在发展到4.0版本
含有英文中文库;相关的安装操作地址如下:https://blog.csdn.net/jinming1109/article/details/80104602可以根据这个地址来进行操作安装;