0 0

读取PDF文件报错20

这几个PDF文件我都读不出来,我用的是PDFBox来读的
public static void main(String[] arg) { 
       System.out.println(CreateIndexImp.getTextFromPDF("C:\\exampledocs\\document\\pdf\\tesupdf\\BYD-AQ02-006 A 比亚迪公司人员信息安全管理规定[1].pdf"));

     
    public static String getTextFromPDF(String pdfFilePath) { 
        String result = null; 
        FileInputStream is = null; 
        PDDocument document = null; 
        try { 
            is = new FileInputStream(pdfFilePath); 
            PDFParser parser = new PDFParser(is); 
            parser.parse(); 
            document = parser.getPDDocument(); 
            PDFTextStripper stripper = new PDFTextStripper(); 
            result = stripper.getText(document); 
        } catch (FileNotFoundException e) { 
            e.printStackTrace(); 
        } catch (IOException e) { 
            e.printStackTrace(); 
        } finally { 
            if (is != null) { 
                try { 
                    is.close(); 
                } catch (IOException e) { 
                    e.printStackTrace(); 
                } 
            } 
            if (document != null) { 
                try { 
                    document.close(); 
                } catch (IOException e) { 
                    e.printStackTrace(); 
                } 
            } 
        } 
        return result; 
    } 


其他的PDF都是可以读的 ,请各位大虾看看是什么原因啊
2011年12月12日 10:59

1个答案 按时间排序 按投票排序

0 0

兄弟:
最好别用PDFBox,PDFBox对中文字体PDF文件支持的不好。
推荐使用XPDF,请参考:http://my.oschina.net/zbrxtpgyaps/blog/28171.
有什么问题可以直接问我,我做过对PDF文件的解析.

2011年12月14日 18:46

相关推荐

    IO流pdf宝典

    JAVAIO流总结宝典,分享给大家,总结较为全面

    tabula-java:从PDF文件中提取表格

    表格Java tabula-java是一个用于从PDF文件提取表的库-它是为 ( )提供动力的表提取引擎。 您可以将tabula-java用作命令行工具,以编程方式从PDF提取表。 分级为4 +:copyright:2014-2020 ManuelAristarán。 根据MIT...

    Itext生成PDF文件加密与加水印

    bcprov-jdk15-139.jar 加密时用到。 iText-2.1.2u.jar Itext包。 iTextAsian.jar 在导入中文是要用到。 博文链接:https://pirateyk.iteye.com/blog/196100

    免费版.NET 组件_Free Spire.Pdfviewer for .NET 3.4

    1.从文件,流,字节数组读取文档 2.加载浏览加密的 PDF 文档 3.设置浏览选项(页面跳转,缩放,自适应页面大小,旋转,单页或多页显示) 4.显示缩略图 5.识别书签目录及跳转到目标位置 6.存取附件到本地硬盘 7.支持...

    关于用GrADS命令sdfopen 打开 .nc 文件出现的SDF file has no discernable X co.pdf

    关于用GrADS命令”sdfopen” 打开 .nc 文件出现的“SDF file has no discernable X co

    读取PDF的jar包

    PDFBox是一个开源的对pdf文件进行操作的库。 PDFBox-0.7.3.jar加入classpath。同时FontBox1.0.jar加入classpath,否则报错: Exception in thread "main" Java.lang.NoClassDefFoundError: org/fontbox/afm/...

    关于 尝试读取或写入受保护的内存。这通常指示其他内存已损坏。的解决方法

    主要介绍了尝试读取或写入受保护的内存。这通常指示其他内存已损坏。的解决方法,有需要的朋友可以参考一下

    vue打包静态资源后显示空白及static文件路径报错的解决

    今天使用vue打包(npm run build)遇到了几个坑,在这里分享给大家 打包之后打开dist的页面显示空白: 这个问题以前就处理过,是打包过程中出现错误频率较高的一种,可能有3处地方会出现这种情况 ...

    python读取robot文件内容-RobotFrameWork读取excel等文件数据.pdf

    然后可以使⽤pip list继续查看 注意:安装成功后import Library,ExcelLibrary如果报错,如果提⽰No module named 'natsort',则表⽰缺少改库函数,通过pip install natsort安装依赖库 2、读取excel中的数据 创建⼀...

    PDFBox-0.7.2

    一个可供java调用的类库,用来打开、读取PDF文件,版本为0.7.2

    Aspose.Words 18.7 带SkiaSharp 解决了错误 net 和netcore 版本

    带SkiaSharp 解决了无法导出的错误 Aspose.Words 18.7 带SkiaSharp 解决了错误 net 和netcore 版本

    精品文件恢复软件

    精品文件恢复软件是一款简单易用且有专业恢复水准的数据恢复软件,可以恢复误删除文件、误格式化分区、盘符消失、分区表破坏、U盘打不开、盘符双击提示格式化、分区报错说根目录损坏且无法读取、Ghost误装系统、重新...

    06:File类的常用静态方法.pdf

    string[] ReadAllLines(string path) 读取文本文件到字符串数组中 string ReadAllText(string path) 读取文本文件到字符串中 void WriteAllText(string path, string contents)将文本contents保存到文件path中,会...

    SVN与CVSpdf格式详细说明书

    Require valid-user #设置用户的访问权限为读写均受限制 (5),用语句svnadmin create e:/ svn/repository/project1 创建库 (6),重启Apache服务器,使用浏览器打开 http://localhost:9090/svn/project 将会...

    java pdf reader

    Java解析DBF文件,错误Failed to parse Number: For input string: "-.---" 或读取不出数据或乱码问题都在这里解决。 代码解决的问题标题都已经表示清楚了,使用的时候直接解压缩,然后把里面的内容拷贝到src目录下...

    学机器学习必备的一些python句法基础 5 文件读写

    #文件读写操作 import pickle usingData = {"Name":"xiaoming","age":80,"House":["China","Beijing","There"]} save_file=open("testfiles/file_2_2.txt","wb") pickle.dump(usingData,save_file) save_file.close...

    使用程序判断一个文件是否是有效的PE文件.pdf

    使⽤程序判断⼀个⽂件是否是有效的PE⽂件 判断⼀个⽂件是否为有效的PE⽂件,判断2个字段: DOS头的e_magic字段... 则报错, cannot convert from 'struct _IMAGE_DOS_HEADER *' to 'int' 改为, PIMAGE_DOS_HEADER Do

    Spine_图片显示出错的处理方法

    Spine_图片显示出错的处理方法

    【C++】多文件程序结构.pdf

    当⽆法解决外部引⽤的时候,根 据情况链接器有两种报错: 1、当找不到引⽤的⽬标时,就会产⽣"⽆法解决的外部符号"错误。 2、当找到两个或以上相同名字的实体(函数或变量时),就会产⽣"符号被多重定义"错误。 因此...

    pdfbox2.0.8.dll

    C# pdfbox 读取pdf文档,引用 pdfbox-app-2.0.8.dll C#后台 url=文件路径 PDDocument document = PDDocument.load(new java.io.File(url)); PDFTextStripper pdfStripper = new ...

Global site tag (gtag.js) - Google Analytics