1、下载xpdf最新版本,地址:http://www.foolabs.com/xpdf/download.html
我下载的是xpdf-3.02pl2-win32.zip
2、下载中文支持包
我下载的是xpdf-chinese-simplified.tar.gz
3、下载pdftohtml支持包
地址:http://sourceforge.net/projects/pdftohtml/
我下载的是:pdftohtml-0.39-win32.tar.gz
4、解压调试
1) 先将xpdf-3.02pl2-win32.zip解压,解压后的内容可根据需要进行删减,如果只需要转换为txt格式,其他的exe文件可以删除,只保留pdftotext.exe,以此类推;
2) 然后将xpdf-chinese-simplified.tar.gz解压到刚才xpdf-3.02pl2-win32.zip的解压目录;
3) 将pdftohtml-0.39-win32.tar.gz解压,pdftohtml.exe解压到xpdf-3.02pl2-win32.zip的解压目录;
4) 目录结构:
+---[X:\xpdf]
|-------各种转换用到的exe文件
|
|-------xpdfrc
|
+------[X:\xpdf\xpdf-chinese-simplified]
|
|
+-------很多转换时需要用到的字符文件
xpdfrc:此文件是用来声明转换字符集对应路径的文件
5) 修改xpdfrc文件(文件原名为sample-xpdfrc)
修改文件内容为:
#----- begin Chinese Simplified support package
cidToUnicode Adobe-GB1 xpdf-chinese-simplified\Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN xpdf-chinese-simplified\ISO-2022-CN.unicodeMap
unicodeMap EUC-CN xpdf-chinese-simplified\EUC-CN.unicodeMap
unicodeMap GBK xpdf-chinese-simplified\GBK.unicodeMap
cMapDir Adobe-GB1 xpdf-chinese-simplified\CMap
toUnicodeDir xpdf-chinese-simplified\CMap
fontDir C:\WINDOWS\Fonts
displayCIDFontTT Adobe-GB1 C:\WINDOWS\Fonts\simhei.ttf
#----- end Chinese Simplified support package
6) 创建bat文件pdftohtml.bat(放置的路径不能包含空格)内容为:
@echo off
set folderPath=%1
set filePath=%2
cd /d %folderPath%
pdftohtml -enc GBK %filePath%
exit
7) 创建类
package com.xpdf;
import java.io.File;
import java.io.IOException;
public class PdfToHtml_xpdf {
private static String INPUT_PATH;
private static String PROJECT_PATH;
public static void convertToHtml(String file, String project) {
INPUT_PATH = file;
PROJECT_PATH = project;
if (checkContentType() == 0) {
toHtml();
}
}
private static int checkContentType() {
String type = INPUT_PATH.substring(INPUT_PATH.lastIndexOf(".") + 1,
INPUT_PATH.length()).toLowerCase();
System.out.println("type:" + type);
if (type.equals("pdf")){
return 0;}
else {
return 9;
}
}
private static void toHtml() {
if (new File(INPUT_PATH).isFile()) {
try {
String cmd ="cmd /k start D:\\testOffice\\xpdf\\pdftohtml.bat \""
+ INPUT_PATH + "\" \"" + PROJECT_PATH + "\"";
System.out.println("cmd:" + cmd);
Runtime.getRuntime().exec(cmd);
System.out.println("OK");
} catch (IOException e) {
e.printStackTrace();
System.out.println("error");
}
}
}
}
String cmd = "....";此处代码是调用创建的bat文件进行转换
8) 测试转换
package com.xpdf;
public class RunXpdf {
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
PdfToHtml_xpdf.convertToHtml("D:\\testOffice\\xpdf\\超经典的设计模式讲解.pdf", "D:\\testOffice\\xpdf\\xpdf3");
}
}
分享到:
相关推荐
解析pdf pdf to text pdf to html 完美支持中文简体繁体。
内核是基于c++写的xpdf,界面是C#写的,可以转txt,jpeg,ps等,转html还没做好
这是我精心收的关于PDF格式转换为HTML格式的软件,这样你就可以方便提取PDF格式中的照片啦
这是因为我们仍缺少最后一步的配置操作:将D:\ProgramFiles\xpdf\xpdf-chinese-simplified\目录下面的add-to-xpdfrc文件复制到D:\Program Files\xpdf\bin64\目录下,将其改名为xpdfrc,打开该文件修改内容为如下: ...
java实现html转pdf,包含后端代码,html测试页面,pom依赖,jar包,如页面过于复杂需调整页面,有些样式itextpdf不支持,请寻找其它样式替换。
1、解决HTML转pdf 中文、数字、英文不能换行的问题,修改的源码包 重新计算了右边距。 2、html转pdf 参考我的另外一篇博文https://blog.csdn.net/qq_38616723/article/details/125188407?spm=1001.2014.3001.5502
xpdf windows已配置好的安装包,解压即可用,可实现pdf转图片、html等
xpdf linux已配置好的安装包,解压即可用,还包含多数字体,可实现pdf转换图片,HTML等
使用 xpdf作为解析的核心包,基本数据可用
http://www.cnblogs.com/liver.wang/archive/2011/10/27/pdf2swfchinese.html cidToUnicode Adobe-GB1 c:\xpdf\xpdf-chinese-simplified\Adobe-GB1.cidToUnicode unicodeMap ISO-2022-...
html渲染页面转换为pdf并设置页眉,页码,水印,目录,二维码
使用方法:解压压缩包,将里面的文件拷贝到/usr/local/share/pdf/chinese-simplified下,将add-to-xpdfrc文件的内容复制到配置文件(自己创建一个或者放到etc里面),并使用-cfg参数指定配置文件即可载入字符集映射...
win10+VS2013编译移植,xpdf转Html,支持中文输出,有需要可以下载
专业的pdf,word转换器,里面已经放了注册器了,可以pdf转word,转execl,转html,txt,等,还有其他的文件转PDF,PDF合并,解密,分割,压缩等功能,或者电子书转PDF等
使用方法,将该文件和CMap等文件(划重点,光这一个文件不够)拷贝到/usr/local/share/pdf/chinese-simplified下,按xpdf语法编写配置文件(语法为cidToUnicode collection name),并使用-cfg参数指定配置文件即可...
基于Xpdf库(http://www.foolabs.com/xpdf/home.html)的pdf2xml转换器。 它将PDF文件中包含的信息转换为XML。 首先,您需要安装xpdf和libxml2(请参阅文档)。 欧洲HervéDéjean施乐研究中心...
java中 word转pdf 无需license 即可使用 /** * doc转pdf * * @param wordPath * @param pdfPath */ public static void doc2pdf(String wordPath, String pdfPath) { try { //新建一个pdf文档 File ...
Pdftohtml是基于Xpdf包的工具,可将pdf文档转换为html格式。
飞机飞行要改变政府的公开数据,请输入pdf .. scrap以转换为json 脚步: 安装NPM 打开项目文件夹并运行npm install 与`主管一起... 全部: 用pdf2json测试,但太复杂了,难以阅读经过pdftotext测试, brew install xpdf