我们接触到的很多文档资料都是以pdf格式存在的,比如:论文,技术文档,标准文件,书籍等。pdf格式使得用机器从中提取信息格外困难。
为了解决这个问题,我找到了几种解决方案,最后选择了python上的pdfplumber库,安装和使用都相对比较方便,效果也还不错,所以下面介绍这个库的安装与使用。
安装
我的电脑配置环境: Win10+python3.6
和许多库一样,其基本安装只需要pip就可以了。
pip install pdfplumber
不过本库还提供了图形Debug功能,可以获得PDF页面的截图,并且用方框框起识别到的文字或表格,帮助判断PDF的识别情况,并且进行配置的调整。【具体例子在后面附上。】
要使用这个功能,还需要安装ImageMagick (特别注意,是6.X版本而不是最新的7.X版本。下载地址如下:https://legacy.imagemagick.org/script/binary-releases.php#windows )
按照官网的指示,理论上安装了这个就可以了,不过,我在使用to_image函数输出图片时,遇到了DelegateException。后来发现,还需要安装另一个软件才能够解决问题。
GhostScript: https://www.ghostscript.com/download/gsdnld.html 【注意,一定要下载32位版本,哪怕Windows和python的版本是64位的。】
然后就大功告成了!
基本使用
本库最重要的应用是提取页面上的文本和表格,用法如下:
import pdfplumber
import pandas as pd
with pdfplumber.open("path/to/file.pdf") as pdf:
first_page = pdf.pages[0]
# 获取文本,直接得到字符串,包括了换行符【与PDF上的换行位置一致,而不是实际的“段落”】
print(first_page.extract_texts())
# 获取本页全部表格,也可以使用extract_table()获得单个表格
for table in p0.extract_tables():
#得到的table是嵌套list类型,转化成DataFrame更加方便查看和分析
df = pd.DataFrame(table[1:], columns=table[0])
print(df)
1
2
3
4
5
6
7
8
9
10
11
12
pdfplumber还可以获得页面上的所有单词、直线、方格、乃至曲线的位置信息,具体可以看看官网的说明:https://github.com/jsvine/pdfplumber
图形展示
最后,附上官网的一个示例jupyter notebook,从这个例子中可以看到其图形展示的功能和更多的用法:
---------------------
作者:blmoistawinde
来源:CSDN
原文:https://blog.csdn.net/blmoistawinde/article/details/82051915
版权声明:本文为博主原创文章,转载请附上博文链接!
相关推荐
python解析pdf获取文本、表格、图片
基于python的文本挖掘应用.pdf基于python的文本挖掘应用.pdf基于python的文本挖掘应用.pdf基于python的文本挖掘应用.pdf基于python的文本挖掘应用.pdf基于python的文本挖掘应用.pdf基于python的文本挖掘应用.pdf基于...
使用python批量读取PDF中的表格数据并写入Excel文档 实现思路: 使用os、pdfplumber、openpyxl模块实现 os :用于获取pdf文件 pdfplumber :用于操作pdf文件 openpyxl :用于操作excel文件 实现步骤: 1、获取PDF...
使用Python的pdfplumber模块从PDF指定的各个页面中提取对应的表格,全部存入pandas的DataFrame中。将表格中不关注的行列删除后,保存到Excel电子表格中。 源码将STM32规格书中指定封装的引脚表提取到Excel中,方便...
该文件包含一个exe和一个py文件,...【【08】python练习|提取PDF文件中的图片、文本、公式和表格】 https://www.bilibili.com/video/BV1K34y1A7ux/?share_source=copy_web&vd_source=3a5925b532459caa93ff86011cae74a5
pdf格式存在的,比如:论文,技术文档...pdf的文本和表格处理用多种方式可以实现, 本文介绍pdfplumber对文本和表格提取。这个库在GitHub上星600多,不过使用起来很方便, 效果也很好,可以满足对pdf中信息的提取需求。
Python应用实战代码-如何使用python提取pdf表格及文本,并保存到excel
Python文本解析研究和比较.pdf
主要介绍了Python实现简单HTML表格解析的方法,涉及Python基于libxml2dom模块操作html页面元素的技巧,需要的朋友可以参考下
使用python提取pdf中的文字
Python 来解析纯文本生成 HTML 页面的小程序。使用Python基础语法知识以及HTML标记语言知识,以及如何用 Python 将纯文本分成一个一个的文本块,并对它对解析。文本中使用部分简单的 Markdown 语法。
Python一键提取PDF中的表格到Excel是一个功能强大的Python自动化办公工具,它能够帮助用户快速、高效地从PDF文件中提取表格数据并将其保存为Excel文件。这个工具使用了Python的多个库,如PyPDF2、tabula-py和pandas...
CNN 中文文本挖掘 文本分类 python 深度学习 机器学习 CNN 中文文本挖掘 文本分类 python 深度学习 机器学习
专门用于测试的资源,Python用pdfplumber第三方库读取pdf文件写入到Excel表中 定期会分布一些优质文章,希望大家多多关注,一键三连 博客地址:https://tianlingqun.blog.csdn.net/
基于Python语言的中文文本处理研究.pdf
利用Python中的PDFPLUMBER包从Pdf中读取表格
python解析百度文库获得pdf+word 可以将文档下载下来变成pdf word 可供学习使用
Python环境下的文本分词与词云制作.pdf
使用Python提取表格数据需要使用pdfplumber模块,打开CMD,安装代码如下: pip install pdfplumber 安装完之后,将需要使用的模块导入 import pdfplumberimport pandas as pd 然后打开PDF文件 # 使用with语句打开...
Python提供了众多的PDF支持库,本篇文章主要介绍了Python处理PDF及生成多层PDF实例代码,这样就能够实现图片扫描上来的内容也可以进行内容搜索的目标