import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
public class Tpdf2 {
/**
* simply reader all the text from a pdf file.
* You have to deal with the format of the output text by yourself.
* 2008-2-25
* @param pdfFilePath file path
* @return all text in the pdf file
*/
public static void main(String[] arg)
{
System.out.println(Tpdf2.getTextFromPDF("E:/person/pdf/sp.pdf"));
}
public static String getTextFromPDF(String pdfFilePath) {
String result = null;
FileInputStream is = null;
PDDocument document = null;
try {
is = new FileInputStream(pdfFilePath);
PDFParser parser = new PDFParser(is);
parser.parse();
document = parser.getPDDocument();
PDFTextStripper stripper = new PDFTextStripper();
result = stripper.getText(document);
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} finally {
if (is != null) {
try {
is.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
if (document != null) {
try {
document.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
return result;
}
}
pdfbox 下载:
http://pdfbox.apache.org/download.html
分享到:
相关推荐
这个"pdfbox demo 例子"是一个展示如何使用PDFBox库进行PDF操作的实际代码示例。在这个压缩包中,可能包含了一个名为`PdfboxDemo`的Java类或者一个包含多个示例的文件夹。 PDFBox提供了一系列API,用于创建、编辑和...
通过这个例子,我们可以看到PDFBox库在处理PDF文档时的强大功能,它不仅可以用来读取文本,还可以将复杂的页面布局和图形转换为高质量的图像,这对于数据可视化、文档存档或其他需要将PDF内容提取出来的需求非常有用...
2. **VS2008中的例子**:这可能是一个Visual Studio 2008的解决方案或项目文件,提供了使用PDFBox .NET DLL的实际示例代码。这些示例可以帮助开发者快速理解如何在实际开发中应用PDFBox的功能。可能的示例包括如何...
这个压缩包"PDFBox For .Net C# 代码例子(包含源文件)"提供了一个VS2010的项目示例,帮助开发者快速理解和使用PDFBox进行PDF文件的读取。 首先,我们来看一下如何在C#中使用PDFBox来读取PDF文件。核心在于引入...
在这个例子中,我们创建了一个新的PDF文档,添加了一页,并在页面上写入了“Hello, PDFBox!”。注意使用`try-with-resources`语句来确保`PDPageContentStream`在完成后被正确关闭,避免资源泄漏。 除了基本的文本...
这个例子展示了如何使用PDFBox读取PDF文件并打印其文本内容。 6. 注意事项: - 确保你有合法的权限去读取和操作PDF文件。 - 性能优化:对于大型PDF文件,应考虑分批处理,以减少内存占用。 - 版本兼容性:不同...
这个例子中,`PDDocument.load()`用于加载PDF文件,`PDFToHTMLConverter`实例化后,通过`convert()`方法将PDF转换为HTML,并指定输出文件。注意转换完成后,需要调用`document.close()`来释放系统资源。 在实际应用...
在这个例子中,PDFBox库加载了指定路径的PDF文件,然后使用PDFRenderer将每一页转换为JPEG图片,并保存到指定位置。`PDDocument.load()`方法用于加载PDF文档,`PDFRenderer.renderImage()`则将PDF页面转换为...
在这个例子中,`PDDocument.load()`方法用于加载PDF文件。为了读取PDF中的文本内容,我们可以使用`PDFTextStripper`类。以下是如何提取PDF中的所有文本: ```java import org.apache.pdfbox.text.PDFTextStripper; ...
在这个例子中,我们首先加载了PDF文档,然后创建了一个`PDFTextStripper`对象,它是PDFBox库中用于提取PDF文本的类。调用`getText()`方法时,需要传入已加载的`PDDocument`对象,它会返回一个字符串,其中包含PDF...
以下是一个简单的源码例子,展示了如何使用PDFBox将PDF转换为TXT: ```csharp using System; using System.Runtime.InteropServices; using org.apache.pdfbox.pdmodel; using org.apache.pdfbox.text; public ...
在这个例子中,我们首先加载PDF文档,然后使用`PDFTextStripper`类来提取文档中的所有文本,并将其打印出来。最后,确保在完成操作后关闭文档以释放资源。 总的来说,PDFBox是一个强大且灵活的工具,可以帮助开发者...
在这个例子中,`PDDocument.load()`方法用于加载PDF文件,`PDFRenderer`负责渲染PDF页面为图像,`renderImageWithDPI()`方法则根据指定的DPI(每英寸点数)将PDF页面转化为BufferedImage对象。最后,`ImageIO.write...
这个例子展示了如何使用PDFBox创建一个新的PDF文档,添加一页,并在页面上写入文本。这只是一个基础示例,实际上PDFBox的功能远不止于此,可以实现更复杂的需求,如表单填写、页眉页脚、水印添加、PDF合并拆分等。...
压缩包中已经包含了所需的jar文件,一个简单的例子:SimplePDFReader.java,运行cmd_with_env.bat既可以启动cmd窗口,并自动设置好classpath, javac SimplePDFReader..java java SimplePDFReader hello.pdf
IText和PDFBox是两个广泛使用的Java库...对于开发者来说,这些例子是学习和理解IText和PDFBox功能的好资源。通过学习这些代码,你可以更好地掌握如何在实际项目中处理PDF和Word文档,尤其是处理中文字符时的注意事项。
在这个例子中,“pdfbox-app-1.7.1.jar”是一个可执行的JAR文件,意味着它包含了一个可运行的Java程序,可以直接通过Java虚拟机(JVM)执行,无需额外的编译步骤。 3. **使用PDFBox进行PDF操作**: - **创建PDF**...
例子: API 文档可从 maven 中心获得。 我认为旧(2.0 之前)版本的 PDFBox 中的字符编码问题已得到修复。 因此,我删除了俄语的音译代码,该代码还将任何“高 ANSI 字符”转换为较低的 ANSI 等效字符,或者如果没有...
PDFer项目中的`TextExtractor.java`文件是一个典型的例子,它演示了如何从PDF文件中提取文本。首先,我们需要导入必要的PDFBox库,如`org.apache.pdfbox.pdmodel.PDDocument`和`org.apache.pdfbox.text....
1. **Apache PDFBox**:另一个常用的库是Apache PDFBox,它提供了丰富的API来读取和操作PDF文档。 2. **添加依赖**:同样,需要在项目中引入PDFBox库: ```xml <groupId>org.apache.pdfbox <artifactId>pdfbox...