-
读取PDF文件报错20
这几个PDF文件我都读不出来,我用的是PDFBox来读的
public static void main(String[] arg) {
System.out.println(CreateIndexImp.getTextFromPDF("C:\\exampledocs\\document\\pdf\\tesupdf\\BYD-AQ02-006 A 比亚迪公司人员信息安全管理规定[1].pdf"));
}
public static String getTextFromPDF(String pdfFilePath) {
String result = null;
FileInputStream is = null;
PDDocument document = null;
try {
is = new FileInputStream(pdfFilePath);
PDFParser parser = new PDFParser(is);
parser.parse();
document = parser.getPDDocument();
PDFTextStripper stripper = new PDFTextStripper();
result = stripper.getText(document);
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
if (is != null) {
try {
is.close();
} catch (IOException e) {
e.printStackTrace();
}
}
if (document != null) {
try {
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
return result;
}
其他的PDF都是可以读的 ,请各位大虾看看是什么原因啊2011年12月12日 10:59
1个答案 按时间排序 按投票排序
-
兄弟:
最好别用PDFBox,PDFBox对中文字体PDF文件支持的不好。
推荐使用XPDF,请参考:http://my.oschina.net/zbrxtpgyaps/blog/28171.
有什么问题可以直接问我,我做过对PDF文件的解析.2011年12月14日 18:46
相关推荐
JAVAIO流总结宝典,分享给大家,总结较为全面
表格Java tabula-java是一个用于从PDF文件提取表的库-它是为 ( )提供动力的表提取引擎。 您可以将tabula-java用作命令行工具,以编程方式从PDF提取表。 分级为4 +:copyright:2014-2020 ManuelAristarán。 根据MIT...
bcprov-jdk15-139.jar 加密时用到。 iText-2.1.2u.jar Itext包。 iTextAsian.jar 在导入中文是要用到。 博文链接:https://pirateyk.iteye.com/blog/196100
1.从文件,流,字节数组读取文档 2.加载浏览加密的 PDF 文档 3.设置浏览选项(页面跳转,缩放,自适应页面大小,旋转,单页或多页显示) 4.显示缩略图 5.识别书签目录及跳转到目标位置 6.存取附件到本地硬盘 7.支持...
关于用GrADS命令”sdfopen” 打开 .nc 文件出现的“SDF file has no discernable X co
PDFBox是一个开源的对pdf文件进行操作的库。 PDFBox-0.7.3.jar加入classpath。同时FontBox1.0.jar加入classpath,否则报错: Exception in thread "main" Java.lang.NoClassDefFoundError: org/fontbox/afm/...
主要介绍了尝试读取或写入受保护的内存。这通常指示其他内存已损坏。的解决方法,有需要的朋友可以参考一下
今天使用vue打包(npm run build)遇到了几个坑,在这里分享给大家 打包之后打开dist的页面显示空白: 这个问题以前就处理过,是打包过程中出现错误频率较高的一种,可能有3处地方会出现这种情况 ...
然后可以使⽤pip list继续查看 注意:安装成功后import Library,ExcelLibrary如果报错,如果提⽰No module named 'natsort',则表⽰缺少改库函数,通过pip install natsort安装依赖库 2、读取excel中的数据 创建⼀...
一个可供java调用的类库,用来打开、读取PDF文件,版本为0.7.2
带SkiaSharp 解决了无法导出的错误 Aspose.Words 18.7 带SkiaSharp 解决了错误 net 和netcore 版本
精品文件恢复软件是一款简单易用且有专业恢复水准的数据恢复软件,可以恢复误删除文件、误格式化分区、盘符消失、分区表破坏、U盘打不开、盘符双击提示格式化、分区报错说根目录损坏且无法读取、Ghost误装系统、重新...
string[] ReadAllLines(string path) 读取文本文件到字符串数组中 string ReadAllText(string path) 读取文本文件到字符串中 void WriteAllText(string path, string contents)将文本contents保存到文件path中,会...
Require valid-user #设置用户的访问权限为读写均受限制 (5),用语句svnadmin create e:/ svn/repository/project1 创建库 (6),重启Apache服务器,使用浏览器打开 http://localhost:9090/svn/project 将会...
Java解析DBF文件,错误Failed to parse Number: For input string: "-.---" 或读取不出数据或乱码问题都在这里解决。 代码解决的问题标题都已经表示清楚了,使用的时候直接解压缩,然后把里面的内容拷贝到src目录下...
#文件读写操作 import pickle usingData = {"Name":"xiaoming","age":80,"House":["China","Beijing","There"]} save_file=open("testfiles/file_2_2.txt","wb") pickle.dump(usingData,save_file) save_file.close...
使⽤程序判断⼀个⽂件是否是有效的PE⽂件 判断⼀个⽂件是否为有效的PE⽂件,判断2个字段: DOS头的e_magic字段... 则报错, cannot convert from 'struct _IMAGE_DOS_HEADER *' to 'int' 改为, PIMAGE_DOS_HEADER Do
Spine_图片显示出错的处理方法
当⽆法解决外部引⽤的时候,根 据情况链接器有两种报错: 1、当找不到引⽤的⽬标时,就会产⽣"⽆法解决的外部符号"错误。 2、当找到两个或以上相同名字的实体(函数或变量时),就会产⽣"符号被多重定义"错误。 因此...
C# pdfbox 读取pdf文档,引用 pdfbox-app-2.0.8.dll C#后台 url=文件路径 PDDocument document = PDDocument.load(new java.io.File(url)); PDFTextStripper pdfStripper = new ...