`
xyliufeng
  • 浏览: 87199 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

pdfbox 例子

阅读更多
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;



public class Tpdf2 {
	/**
	 * simply reader all the text from a pdf file. 
	 * You have to deal with the format of the output text by yourself.
	 * 2008-2-25
	 * @param pdfFilePath file path
	 * @return all text in the pdf file
	 */
	
	public static void main(String[] arg)
	{
		System.out.println(Tpdf2.getTextFromPDF("E:/person/pdf/sp.pdf"));
	}
	
	public static String getTextFromPDF(String pdfFilePath) {
		String result = null;
		FileInputStream is = null;
		PDDocument document = null;
		try {
			is = new FileInputStream(pdfFilePath);
			PDFParser parser = new PDFParser(is);
			parser.parse();
			document = parser.getPDDocument();
			PDFTextStripper stripper = new PDFTextStripper();
			result = stripper.getText(document);
		} catch (FileNotFoundException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} finally {
			if (is != null) {
				try {
					is.close();
				} catch (IOException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
			if (document != null) {
				try {
					document.close();
				} catch (IOException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
		}
		return result;
	}
}



pdfbox 下载:http://pdfbox.apache.org/download.html
分享到:
评论
1 楼 antony102201 2011-12-12  
用这个读取的时候有几个PDF文件读不出来,请问是程序有什么要提高的还是PDF文件本身有问题啊,这个PDF文件是可以看的,如果这个PDF文件本身有什么问题,怎么看啊

相关推荐

    pdfbox demo 例子

    这个"pdfbox demo 例子"是一个展示如何使用PDFBox库进行PDF操作的实际代码示例。在这个压缩包中,可能包含了一个名为`PdfboxDemo`的Java类或者一个包含多个示例的文件夹。 PDFBox提供了一系列API,用于创建、编辑和...

    pdfbox读取pdf文档转为高清图片的例子

    通过这个例子,我们可以看到PDFBox库在处理PDF文档时的强大功能,它不仅可以用来读取文本,还可以将复杂的页面布局和图形转换为高质量的图像,这对于数据可视化、文档存档或其他需要将PDF内容提取出来的需求非常有用...

    Net版PDFBox1.6.0 DLL+VS2008例子

    2. **VS2008中的例子**:这可能是一个Visual Studio 2008的解决方案或项目文件,提供了使用PDFBox .NET DLL的实际示例代码。这些示例可以帮助开发者快速理解如何在实际开发中应用PDFBox的功能。可能的示例包括如何...

    PDFBox For .Net C# 代码例子(包含源文件)

    这个压缩包"PDFBox For .Net C# 代码例子(包含源文件)"提供了一个VS2010的项目示例,帮助开发者快速理解和使用PDFBox进行PDF文件的读取。 首先,我们来看一下如何在C#中使用PDFBox来读取PDF文件。核心在于引入...

    pdfbox实例

    在这个例子中,我们创建了一个新的PDF文档,添加了一页,并在页面上写入了“Hello, PDFBox!”。注意使用`try-with-resources`语句来确保`PDPageContentStream`在完成后被正确关闭,避免资源泄漏。 除了基本的文本...

    pdfbox所需jar包

    这个例子展示了如何使用PDFBox读取PDF文件并打印其文本内容。 6. 注意事项: - 确保你有合法的权限去读取和操作PDF文件。 - 性能优化:对于大型PDF文件,应考虑分批处理,以减少内存占用。 - 版本兼容性:不同...

    PDF转HTML文件用到的pdfbox文件的jar包

    这个例子中,`PDDocument.load()`用于加载PDF文件,`PDFToHTMLConverter`实例化后,通过`convert()`方法将PDF转换为HTML,并指定输出文件。注意转换完成后,需要调用`document.close()`来释放系统资源。 在实际应用...

    pdfbox-2.0.8.jar及fontbox-2.0.8.jar、commons-logging-1.0.4.jar

    在这个例子中,PDFBox库加载了指定路径的PDF文件,然后使用PDFRenderer将每一页转换为JPEG图片,并保存到指定位置。`PDDocument.load()`方法用于加载PDF文档,`PDFRenderer.renderImage()`则将PDF页面转换为...

    pdfbox读取pdf内容

    在这个例子中,`PDDocument.load()`方法用于加载PDF文件。为了读取PDF中的文本内容,我们可以使用`PDFTextStripper`类。以下是如何提取PDF中的所有文本: ```java import org.apache.pdfbox.text.PDFTextStripper; ...

    Java 解析 PDF, pdfbox读取PDF内容

    在这个例子中,我们首先加载了PDF文档,然后创建了一个`PDFTextStripper`对象,它是PDFBox库中用于提取PDF文本的类。调用`getText()`方法时,需要传入已加载的`PDDocument`对象,它会返回一个字符串,其中包含PDF...

    c#使用PDFBox-0.7DLL文件转换pd成txt 命令行DOS方式 源码例子

    以下是一个简单的源码例子,展示了如何使用PDFBox将PDF转换为TXT: ```csharp using System; using System.Runtime.InteropServices; using org.apache.pdfbox.pdmodel; using org.apache.pdfbox.text; public ...

    pdfbox-app-1.7.1.jar pdf操作

    在这个例子中,我们首先加载PDF文档,然后使用`PDFTextStripper`类来提取文档中的所有文本,并将其打印出来。最后,确保在完成操作后关闭文档以释放资源。 总的来说,PDFBox是一个强大且灵活的工具,可以帮助开发者...

    pdfbox切图

    在这个例子中,`PDDocument.load()`方法用于加载PDF文件,`PDFRenderer`负责渲染PDF页面为图像,`renderImageWithDPI()`方法则根据指定的DPI(每英寸点数)将PDF页面转化为BufferedImage对象。最后,`ImageIO.write...

    pdfbox-2.0.9.jar和fontbox-2.0.9.jar等,java解析pdf所有相关jar包

    这个例子展示了如何使用PDFBox创建一个新的PDF文档,添加一页,并在页面上写入文本。这只是一个基础示例,实际上PDFBox的功能远不止于此,可以实现更复杂的需求,如表单填写、页眉页脚、水印添加、PDF合并拆分等。...

    pdfbox-1.1.0的jar文件,已及其他必要的jar文件,和一个例子。

    压缩包中已经包含了所需的jar文件,一个简单的例子:SimplePDFReader.java,运行cmd_with_env.bat既可以启动cmd窗口,并自动设置好classpath, javac SimplePDFReader..java java SimplePDFReader hello.pdf

    ItextpdfboxPDFword生成和读取各种例子最详细的打包

    IText和PDFBox是两个广泛使用的Java库...对于开发者来说,这些例子是学习和理解IText和PDFBox功能的好资源。通过学习这些代码,你可以更好地掌握如何在实际项目中处理PDF和Word文档,尤其是处理中文字符时的注意事项。

    合同PDF工具包:pdfbox-app-1.7.1.jar

    在这个例子中,“pdfbox-app-1.7.1.jar”是一个可执行的JAR文件,意味着它包含了一个可运行的Java程序,可以直接通过Java虚拟机(JVM)执行,无需额外的编译步骤。 3. **使用PDFBox进行PDF操作**: - **创建PDF**...

    飞qjava源码-PdfLayoutManager:向PDFBox添加换行、分页、表格和样式

    例子: API 文档可从 maven 中心获得。 我认为旧(2.0 之前)版本的 PDFBox 中的字符编码问题已得到修复。 因此,我删除了俄语的音译代码,该代码还将任何“高 ANSI 字符”转换为较低的 ANSI 等效字符,或者如果没有...

    PDFer:使用Apache PDFBox操作PDF的示例

    PDFer项目中的`TextExtractor.java`文件是一个典型的例子,它演示了如何从PDF文件中提取文本。首先,我们需要导入必要的PDFBox库,如`org.apache.pdfbox.pdmodel.PDDocument`和`org.apache.pdfbox.text....

    java 创建和读取PDF例子

    1. **Apache PDFBox**:另一个常用的库是Apache PDFBox,它提供了丰富的API来读取和操作PDF文档。 2. **添加依赖**:同样,需要在项目中引入PDFBox库: ```xml <groupId>org.apache.pdfbox <artifactId>pdfbox...

Global site tag (gtag.js) - Google Analytics