论坛首页 Java企业应用论坛

Word/Excel/PDF文件转换成HTML整理

浏览 88293 次
该帖已经被评为良好帖
作者 正文
   发表时间:2009-04-10  
linux的话,在上面装个windows的虚拟机来跑吧.

不然可能还真没办法

0 请登录后投票
   发表时间:2009-04-10  
先感谢楼主的总结。
我测试了ExcelToHtml和WordToHtml,而ExcelToHtml时出现一个问题,就是当Excel的单元格中显示的内容不全时,转换后,Html中只有Excel单元格显示的部分,而没有没显示的部分,不知道大家有没有遇到这样的问题,是如何解决的?
0 请登录后投票
   发表时间:2009-04-13  
是会出现这种问题,Jacob只是调用了Office的Sava as方法,具体样式,还是通过Excel中改好了再转换吧
0 请登录后投票
   发表时间:2009-04-23  
不要用DOC的格式吧  考虑用用RTF格式
0 请登录后投票
   发表时间:2009-04-24  
PDF中有数学公式的时候能正常转换吗?
0 请登录后投票
   发表时间:2009-07-31  
pdftohtml在pdf中字体是宋体或者楷体时候,系统报错:pdftohtml.exe发生错误需要关闭......,而直接用pdftotxt是可以解析的,是不是pdftohtml没有找到中文补丁,是他的bug还是我的配置有问题呢

这导致大部分中文pdf无法解析,附件中是个例子
0 请登录后投票
   发表时间:2009-08-02  
lanfanghe 写道
pdftohtml在pdf中字体是宋体或者楷体时候,系统报错:pdftohtml.exe发生错误需要关闭......,而直接用pdftotxt是可以解析的,是不是pdftohtml没有找到中文补丁,是他的bug还是我的配置有问题呢

这导致大部分中文pdf无法解析,附件中是个例子

我的确实可以转换的,周一帮你看一下
0 请登录后投票
   发表时间:2009-08-03  
不错,以后如果有项目用到这个的时候就可以直接拿来用了
0 请登录后投票
   发表时间:2009-08-05  
寄生虫 写道
lanfanghe 写道
pdftohtml在pdf中字体是宋体或者楷体时候,系统报错:pdftohtml.exe发生错误需要关闭......,而直接用pdftotxt是可以解析的,是不是pdftohtml没有找到中文补丁,是他的bug还是我的配置有问题呢

这导致大部分中文pdf无法解析,附件中是个例子

我的确实可以转换的,周一帮你看一下


非常感谢楼主的热心帮忙,我找了其他的一些工具,pdfbox、itext、sun的pdfrenderer,都不如所愿,如愿的又都是一些付费的,比如Ap PDF to HTML,pdf to png等,但是毕竟是付费的,尤其对xpdf中的pdftohtml比较满意,还出现这个问题,郁闷了,呵呵
0 请登录后投票
   发表时间:2009-08-05  
lanfanghe 写道
寄生虫 写道
lanfanghe 写道
pdftohtml在pdf中字体是宋体或者楷体时候,系统报错:pdftohtml.exe发生错误需要关闭......,而直接用pdftotxt是可以解析的,是不是pdftohtml没有找到中文补丁,是他的bug还是我的配置有问题呢

这导致大部分中文pdf无法解析,附件中是个例子

我的确实可以转换的,周一帮你看一下


非常感谢楼主的热心帮忙,我找了其他的一些工具,pdfbox、itext、sun的pdfrenderer,都不如所愿,如愿的又都是一些付费的,比如Ap PDF to HTML,pdf to png等,但是毕竟是付费的,尤其对xpdf中的pdftohtml比较满意,还出现这个问题,郁闷了,呵呵


.bat文件中你的编码格式有没有设置?确定一下PDF是什么编码格式后,再尝试一下。
@echo off
set folderPath=%1
set filePath=%2
cd /d %folderPath%\convertPdf
pdftohtml -enc GBK %filePath%
exit
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics