`
skyqqzhou
  • 浏览: 34060 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

xpdf将pdf转成html

阅读更多

1、下载xpdf最新版本,地址:http://www.foolabs.com/xpdf/download.html

我下载的是xpdf-3.02pl2-win32.zip

2、下载中文支持包

我下载的是xpdf-chinese-simplified.tar.gz

3、下载pdftohtml支持包

地址:http://sourceforge.net/projects/pdftohtml/

我下载的是:pdftohtml-0.39-win32.tar.gz

4、解压调试

1) 先将xpdf-3.02pl2-win32.zip解压,解压后的内容可根据需要进行删减,如果只需要转换为txt格式,其他的exe文件可以删除,只保留pdftotext.exe,以此类推;

2) 然后将xpdf-chinese-simplified.tar.gz解压到刚才xpdf-3.02pl2-win32.zip的解压目录;

3) 将pdftohtml-0.39-win32.tar.gz解压,pdftohtml.exe解压到xpdf-3.02pl2-win32.zip的解压目录;

4) 目录结构:

+---[X:\xpdf]

           |-------各种转换用到的exe文件

           |

           |-------xpdfrc

           |

           +------[X:\xpdf\xpdf-chinese-simplified]

                                      |

                                      |

                                      +-------很多转换时需要用到的字符文件

xpdfrc:此文件是用来声明转换字符集对应路径的文件

5) 修改xpdfrc文件(文件原名为sample-xpdfrc)

修改文件内容为:

#----- begin Chinese Simplified support package
cidToUnicode    Adobe-GB1       xpdf-chinese-simplified\Adobe-GB1.cidToUnicode
unicodeMap      ISO-2022-CN     xpdf-chinese-simplified\ISO-2022-CN.unicodeMap
unicodeMap      EUC-CN          xpdf-chinese-simplified\EUC-CN.unicodeMap
unicodeMap GBK    xpdf-chinese-simplified\GBK.unicodeMap
cMapDir         Adobe-GB1       xpdf-chinese-simplified\CMap
toUnicodeDir                    xpdf-chinese-simplified\CMap
fontDir C:\WINDOWS\Fonts
displayCIDFontTT Adobe-GB1 C:\WINDOWS\Fonts\simhei.ttf
#----- end Chinese Simplified support package

6) 创建bat文件pdftohtml.bat(放置的路径不能包含空格)内容为:

@echo off
set folderPath=%1
set filePath=%2
cd /d %folderPath%
pdftohtml -enc GBK %filePath%
exit

7) 创建类

package com.xpdf;

import java.io.File;
import java.io.IOException;

public class PdfToHtml_xpdf {
	private static String INPUT_PATH;
	private static String PROJECT_PATH;

	public static void convertToHtml(String file, String project) {
		INPUT_PATH = file;
		PROJECT_PATH = project;
		if (checkContentType() == 0) {
			toHtml();
		}
	}

	private static int checkContentType() {
		String type = INPUT_PATH.substring(INPUT_PATH.lastIndexOf(".") + 1,
				INPUT_PATH.length()).toLowerCase();
		System.out.println("type:" + type);
		if (type.equals("pdf")){
			return 0;}
		else {
			return 9;
		}
	}

	private static void toHtml() {
		if (new File(INPUT_PATH).isFile()) {
			try {
				String cmd ="cmd /k start D:\\testOffice\\xpdf\\pdftohtml.bat \""
						+ INPUT_PATH + "\" \"" + PROJECT_PATH + "\"";
				System.out.println("cmd:" + cmd);
				Runtime.getRuntime().exec(cmd);
				System.out.println("OK");
			} catch (IOException e) {
				e.printStackTrace();
				System.out.println("error");
			}
		}
	}

}

 

 

String cmd = "....";此处代码是调用创建的bat文件进行转换

8) 测试转换

package com.xpdf;

public class RunXpdf {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		PdfToHtml_xpdf.convertToHtml("D:\\testOffice\\xpdf\\超经典的设计模式讲解.pdf", "D:\\testOffice\\xpdf\\xpdf3");
	}

}

 

 

分享到:
评论
2 楼 zlb824 2011-12-02  
“String cmd ="cmd /k start D:\\testOffice\\xpdf\\pdftohtml.bat \"" 
+ INPUT_PATH + "\" \"" + PROJECT_PATH + "\"";”这一句貌似有问题呀?兄弟,你拷贝过来之后测了没呀?
1 楼 gn1989 2011-11-24  
我试了,怎么不行啊!!!

相关推荐

    XPDF ,pdf转html,Pdf转txt

    解析pdf pdf to text pdf to html 完美支持中文简体繁体。

    基于xpdf的pdf reader source code

    内核是基于c++写的xpdf,界面是C#写的,可以转txt,jpeg,ps等,转html还没做好

    PDF-HTML.rar_html PDF_pdf html_pdfhtml_xpdf

    这是我精心收的关于PDF格式转换为HTML格式的软件,这样你就可以方便提取PDF格式中的照片啦

    PDF文字提取工具 xpdf_pdftotext

    这是因为我们仍缺少最后一步的配置操作:将D:\ProgramFiles\xpdf\xpdf-chinese-simplified\目录下面的add-to-xpdfrc文件复制到D:\Program Files\xpdf\bin64\目录下,将其改名为xpdfrc,打开该文件修改内容为如下: ...

    JAVA使用itextpdf实现HTML转PDF

    java实现html转pdf,包含后端代码,html测试页面,pom依赖,jar包,如页面过于复杂需调整页面,有些样式itextpdf不支持,请寻找其它样式替换。

    IText html转pdf 解决中文自动换行问题

    1、解决HTML转pdf 中文、数字、英文不能换行的问题,修改的源码包 重新计算了右边距。 2、html转pdf 参考我的另外一篇博文https://blog.csdn.net/qq_38616723/article/details/125188407?spm=1001.2014.3001.5502

    xpdf windows已配置好的安装包,解压即可用

    xpdf windows已配置好的安装包,解压即可用,可实现pdf转图片、html等

    xpdf linux已配置好的安装包,解压即可用,还包含多数字体

    xpdf linux已配置好的安装包,解压即可用,还包含多数字体,可实现pdf转换图片,HTML等

    xpdf-3.02pl2-win32.zip

    使用 xpdf作为解析的核心包,基本数据可用

    pdf-chinese-simplified.zip已经配置好了

    http://www.cnblogs.com/liver.wang/archive/2011/10/27/pdf2swfchinese.html cidToUnicode Adobe-GB1 c:\xpdf\xpdf-chinese-simplified\Adobe-GB1.cidToUnicode unicodeMap ISO-2022-...

    springboot使用itext生成pdf并保存到本地

    html渲染页面转换为pdf并设置页眉,页码,水印,目录,二维码

    xpdf-chinese-simplified.tar.gz

    使用方法:解压压缩包,将里面的文件拷贝到/usr/local/share/pdf/chinese-simplified下,将add-to-xpdfrc文件的内容复制到配置文件(自己创建一个或者放到etc里面),并使用-cfg参数指定配置文件即可载入字符集映射...

    xpdfToHtml

    win10+VS2013编译移植,xpdf转Html,支持中文输出,有需要可以下载

    专业PDF转换器.rar

    专业的pdf,word转换器,里面已经放了注册器了,可以pdf转word,转execl,转html,txt,等,还有其他的文件转PDF,PDF合并,解密,分割,压缩等功能,或者电子书转PDF等

    Adobe-GB1.cidToUnicode

    使用方法,将该文件和CMap等文件(划重点,光这一个文件不够)拷贝到/usr/local/share/pdf/chinese-simplified下,按xpdf语法编写配置文件(语法为cidToUnicode collection name),并使用-cfg参数指定配置文件即可...

    pdf2xml-开源

    基于Xpdf库(http://www.foolabs.com/xpdf/home.html)的pdf2xml转换器。 它将PDF文件中包含的信息转换为XML。 首先,您需要安装xpdf和libxml2(请参阅文档)。 欧洲HervéDéjean施乐研究中心...

    aspose-words-19.5jdk.zip

    java中 word转pdf 无需license 即可使用 /** * doc转pdf * * @param wordPath * @param pdfPath */ public static void doc2pdf(String wordPath, String pdfPath) { try { //新建一个pdf文档 File ...

    pdftohtml-开源

    Pdftohtml是基于Xpdf包的工具,可将pdf文档转换为html格式。

    voos-fab:要改变政府的公开数据,请输入pdf .. scrap以转换为json

    飞机飞行要改变政府的公开数据,请输入pdf .. scrap以转换为json 脚步: 安装NPM 打开项目文件夹并运行npm install 与`主管一起... 全部: 用pdf2json测试,但太复杂了,难以阅读经过pdftotext测试, brew install xpdf

Global site tag (gtag.js) - Google Analytics