论坛首页 Java企业应用论坛

Word/Excel/PDF文件转换成HTML整理

浏览 88299 次
该帖已经被评为良好帖
作者 正文
   发表时间:2009-02-19  
为什么按你说的程序跑不了,没有异常也没有任何文件 的生成。
0 请登录后投票
   发表时间:2009-02-19  
linux下word和excel转换用openoffice,以服务器模式启动,具体忘记了,可以google下,flv转换应该用mplayer的库,但没用程序实现过
0 请登录后投票
   发表时间:2009-02-22  
感觉你的代码有点问题~~~有时间的话交流一下吧~~~我最近的项目也是搞这个~~我的邮箱是Mr.LJava@gmail.com
0 请登录后投票
   发表时间:2009-02-22  
在POI的3.2版本的stratchpad中,已经提供解析Word的方法,可以使用如下代码:
try {
  WordExtractor ext = new WordExtractor(stream);
  return ext.getText();
} catch (IOException e) {
  e.printStackTrace();
}
0 请登录后投票
   发表时间:2009-02-23  
您好,想请问一下,word转成html之后一直有格式问题困扰着我,这种方式转换之后格式会有问题吗,或者有什么格式控制的好办法,我以前一直是用.net写的调用office另存为html实现转换,格式问题很多,不好解决
0 请登录后投票
   发表时间:2009-03-06  
我一年前用过的,还得装微软的office 没多大用处
0 请登录后投票
   发表时间:2009-03-18  
word里面的公式编辑器出来的那些公式不知道有没有解决方案呢?
0 请登录后投票
   发表时间:2009-03-19  
word如果仅仅是提取文本,poi就可以了。如果要保留表格,样式等,还是jacob效果最好。pdf的文本提取还可以用pdfbox,但存在中文字体的问题,有些pdf文档的中文字体pdfbox没有,转出来是乱码,还是xpdf效果最好,可以设置字体的目录,完美解决乱码。
0 请登录后投票
   发表时间:2009-04-08  
linleran 写道
word如果仅仅是提取文本,poi就可以了。如果要保留表格,样式等,还是jacob效果最好。pdf的文本提取还可以用pdfbox,但存在中文字体的问题,有些pdf文档的中文字体pdfbox没有,转出来是乱码,还是xpdf效果最好,可以设置字体的目录,完美解决乱码。

好像7.3以后就没乱码问题了,我用过的。
0 请登录后投票
   发表时间:2009-04-08  
这种用命令方式转换格式不好自定义。并且多线程,优化,错误控制等也不好弄。
一直想用纯java实现一个。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics