0

3

回答

1288 浏览

Lucene如何索引巨大的PDF文件?[已解决]5

我想用Lucene对一个529G大小的PDF文件进行索引,开始使用Tika1.5,异常为: TIKA-198: Illegal IOException from org.apache.tika.parser.pdf.PDFParser@1455935 org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:248) org ...

2014年5月06日 14:41
0

1

回答

330 浏览

pdfbox[已解决]25

各位好: 我需要实现的功能如下: 获取pdf文件中的图片,然后根据这个图片,获取图片上下两行的文本数据。 目前可以提取,每一页的图片,和他的文本信息。但是无法定位到 上下两行。 有没有大虾做过的,或者给他建议。 我找api 找了很久, 但是由于英文很烂,pdfbox的对象模型太多了。也没找到一个从上到下遍历一个页面 的方法。

2013年7月23日 22:49

本周活跃投票用户

最新评论

Global site tag (gtag.js) - Google Analytics