使用 PDF BOX 读取 PDF,下载地址:sourceforge里搜索就有了.
package com.pdfbox.pdf; import java.io.InputStream; import org.pdfbox.pdfparser.PDFParser; import org.pdfbox.util.PDFTextStripper; /** * 使用 PDFBOX插件读取PDF * @author LGF * */ public class ReadPDF { public static void main(String[] args) throws Exception { //获取输入流 InputStream input = getInputStream("MyBatis3.2.2中文官方文档.pdf"); //创建解析对象 PDFParser parser = new PDFParser(input); //解析 parser.parse(); //创建 PDFTextStripper 对象 PDFTextStripper ts = new PDFTextStripper(); System.out.println("start page :" + ts.getStartPage()); System.out.println("end page :" + ts.getEndPage()); //获取文本 String text = ts.getText(parser.getPDDocument()); String[] texts = text.split("\r\n"); int index = 1; /* * 如果你想一行一行的读取怎么办? * Ok ,可以加入以下代码,分割就好了 */ for (String string : texts) { System.out.println(index+":"+string); index++; if (index==100)return; } //释放资源 input.close(); } /** * 获取 class path 中的文件流 * @param name 名称 * @return InputStream */ public static InputStream getInputStream(String name){ return Thread.currentThread().getContextClassLoader().getResourceAsStream(name); } }
相关推荐
pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包
它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性: 1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 3.加密/解密PDF文档。 4.向已有PDF文档中追加内容。 ...
Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序。PDFBox的主要功能: Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 ...
完整的demo实现PDF签章,里面包括通过Box,Itext进行签章功能实现,下载下来直接运行,我是导入的jdk1.7
传统的RSSI测距模型中距离参考节点1 m处信号强度值A和路径衰减指数n都为固定值,无法适应不同环境的需要,提出了一种测量A的新方法,并且通过引入一个虚拟锚节点动态实时获取n,然后采用三三交集Bounding-Box定位...
打开HTML转PDF 总览 Open HTML to PDF是一个纯Java库,用于使用CSS 2.1进行布局和格式设置来呈现任意格式正确... -获取Maven工件和代码以开始使用。 将信息移至Wiki -现在带有日志! 飞碟的差异 使用维护良好且开源
3 SDK 获取说明.....................................................................................................................................3 3.1 获取 SDK.........................................
HTML5 CANVAS游戏开发实战(PDF和源代码) 第一部分 准备工作篇 第1章 准备工作 / 2 1.1 html5介绍 / 2 1.1.1 什么是html5 / 2 1.1.2 html5的新特性 / 2 1.2 canvas简介 / 5 1.2.1 canvas标签的历史 / 5 ...
元数据的导入与导出、发布与获取如何实现(第2章);如何利用WCF对事务的支持将分布式事务引入服务(第3章);如何利用并发与限流机制提高服务的吞吐量和可用性(第4章);如何利用可靠会话机制确保消息的“使命必达...
1.0 What’s in the Box:混音器包装内容 Presonus普瑞声纳StudioLive RM32AI和RM16AI混音器包装包含混音器主机、USB Wi-Fi dongle、FireWire 800 cable、Ethernet cable、Power cable和产品注册软件授权卡等。 2.0...
MyBox:简易工具集 这是利用JavaFx开发的图形化桌面应用,目标是提供简单易用的功能。免费开源。 新内容 2021-1-27版本6.3.8 添加:编辑和转换csv和excel文件。数据粘贴板。编辑和保存矩阵。批量设置html的样式。 ...
AR路由器配置内网通过公网IP访问内网服务器(域内NAT).docx Box 310&610连接TOUCH失败.png BOX310可以可管理加入SMC2.0吗.docx ...iClient播放实况失败,提示“当前为udp链接,通讯不稳定,会出现获取码流
Java经典入门教程pdf完整版Java私塾跟我学系列JAⅥ篇网址:htp:/www.lavass.Cn电话:010-86835215 3;Java是一种软件运行平台 3.1:什么是软件的运行平台 如同我们需要阳光、空气、水和食物才能正常存活一样,软件最终要...
这⾥主 要⽤python进⾏分析,主要内容分为:单变量,双变量,和多变量分析。 注意:我们在分析数据之前,⼀定要先了解数据。 1.导⼊python中相关的库 import numpy as np import pandas as pd import matplotlib....
66 8.4 从其他的URL读取数据 67 8.5 安全 68 <br/>第9章. 范例精讲 71 9.1 购物车 71 9.1.1 介绍 71 9.1.2 实现目录 72 9.1.3 测试部署 74 9.1.4 调用远程对象 75 9.1.5 实现...
对于安全防护来说,真正可怕的是自身的无知,知识的不对称导致的威胁发生在身边却不知晓,会让防护者陷入“我已经做的足够好”的Comfort Zone...•Think Out Of The Box •自适应的新型蜜罐 •部署与捕获 •展望与未来
PdfSharpCore PdfSharpCore是.NET Standard的...) PdfSharp.Xamarin是的部分端口 iOS和Android使用Xamarin,它允许PDF文件的创建和修改。示例项目这里有一个示例项目。 我已将其从该项目中删除,并将其放入单独的解决
这是列表:(上传、缩略图、下载 Zip 或 Pdf 资产,以及文档元数据和删除) 文档 有关一般 API 文档,请查看。 入门 通过Composer包含或仅获取存储库文件。 您需要一起工作的 BoxApi 和 BoxDocument 类。 ...