Python提取PDF内容（文本、图像、线条等）

shuai1234

浏览: 935706 次
性别:
来自: 山西

最近访客更多访客>>

tangang

shnsvyu

zhoukunhy

__点__

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

使用Python抽取PDF文件内容，包括文本、图像、线条等对象

摘要：这篇文章主要介绍如何使用Python【3.6版本】中的PDFminer3k 模块来抽取PDF内容，包括文本、图像、曲线等。

作者：yooongchun

微信公众号：yooongchun小屋

1.安装PDFminer3k

使用pip 命令安装

pip install pdfminer3k

2.编写测试

你可以在这里获得官方参考：PDFMiner

如果你不喜欢看英文的官方文档，这里的翻译也许对你有帮助：中文PDFMiner文档

下面的程序，我拓展了官方给出的例子，你可以通过这个例子统计出来你的pdf文件一共包含哪些内容，比如文本框，曲线，图片等

#!/usr/bin/python

# -*- coding: utf-8 -*-

__author__ = 'yooongchun'

import sys

import importlib

importlib.reload(sys)

from pdfminer.pdfparser import PDFParser,PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import *

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''

解析pdf文件，获取文件中包含的各种对象

'''

# 解析pdf文件函数

def parse(pdf_path):

fp = open(pdf_path, 'rb') # 以二进制读模式打开

# 用文件对象来创建一个pdf文档分析器

parser = PDFParser(fp)

# 创建一个PDF文档

doc = PDFDocument()

# 连接分析器与文档对象

parser.set_document(doc)

doc.set_parser(parser)

# 提供初始化密码

# 如果没有密码就创建一个空的字符串

doc.initialize()

# 检测文档是否提供txt转换，不提供就忽略

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

else:

# 创建PDf 资源管理器来管理共享资源

rsrcmgr = PDFResourceManager()

# 创建一个PDF设备对象

laparams = LAParams()

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

# 创建一个PDF解释器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

# 用来计数页面，图片，曲线，figure，水平文本框等对象的数量

num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0

# 循环遍历列表，每次处理一个page的内容

for page in doc.get_pages(): # doc.get_pages() 获取page列表

num_page += 1 # 页面增一

interpreter.process_page(page)

# 接受该页面的LTPage对象

layout = device.get_result()

for x in layout:

if isinstance(x,LTImage): # 图片对象

num_image += 1

if isinstance(x,LTCurve): # 曲线对象

num_curve += 1

if isinstance(x,LTFigure): # figure对象

num_figure += 1

if isinstance(x, LTTextBoxHorizontal): # 获取文本内容

num_TextBoxHorizontal += 1 # 水平文本框对象增一

# 保存文本内容

with open(r'test.txt', 'a') as f:

results = x.get_text()

f.write(results + '\n')

print('对象数量：\n','页面数：%s\n'%num_page,'图片数：%s\n'%num_image,'曲线数：%s\n'%num_curve,'水平文本框：%s\n'

%num_TextBoxHorizontal)

if __name__ == '__main__':

pdf_path = r'C:\Users\fanyu\Desktop\pdf\test.pdf'

parse(pdf_path)

其实在上面的layout 对象中有更多的内容可提取，这个自己按需来写就好，然后对曲线，文本框等对象，都会有位置属性，可直接获取,自己debug 查看以下对象属性获取即可。

---------------------

作者：yooongchun

来源：CSDN

原文：https://blog.csdn.net/zyc121561/article/details/77877912

分享到：

Python 3.6 中使用pdfminer解析pdf文件 | 用python解析pdf中的文本与表格【pdfplu ...

2019-01-22 14:43
浏览 7502
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论