抽词扩展名为.doc的word文档报一系列异常如下:
异常一:
java.lang.IndexOutOfBoundsException: Index: 10, Size: 7
at java.util.ArrayList.RangeCheck(Unknown Source)
at java.util.ArrayList.get(Unknown Source)
at org.apache.poi.hwpf.model.PlexOfCps.getProperty(PlexOfCps.java:70)
at org.apache.poi.hwpf.usermodel.HeaderStories.getAt(HeaderStories.java:155)
at org.apache.poi.hwpf.usermodel.HeaderStories.getFirstHeader(HeaderStories.java:87)
at org.apache.poi.hwpf.extractor.WordExtractor.getHeaderText(WordExtractor.java:178)
at org.apache.poi.hwpf.extractor.WordExtractor.getText(WordExtractor.java:254)
at com.index.extractor.impl.WordFileTextExtractor.getText(WordFileTextExtractor.java:23)
at test.TextConvert.convert(TextConvert.java:147)
at test.TextConvert.getEFiles(TextConvert.java:111)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.go(TextConvert.java:47)
at test.TextConvert.main(TextConvert.java:42)
异常二:
java.lang.ArrayIndexOutOfBoundsException: 218636
at org.apache.poi.util.LittleEndian.getShort(LittleEndian.java:45)
at org.apache.poi.hwpf.model.ListLevel.<init>(ListLevel.java:120)
at org.apache.poi.hwpf.model.ListFormatOverrideLevel.<init>(ListFormatOverrideLevel.java:48)
at org.apache.poi.hwpf.model.ListTables.<init>(ListTables.java:88)
at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:267)
at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:157)
at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:62)
at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:54)
at com.index.extractor.impl.WordFileTextExtractor.getText(WordFileTextExtractor.java:22)
at test.TextConvert.convert(TextConvert.java:147)
at test.TextConvert.getEFiles(TextConvert.java:111)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.go(TextConvert.java:47)
at test.TextConvert.main(TextConvert.java:42)
异常三:
java.lang.NullPointerException
at org.apache.poi.hwpf.sprm.ParagraphSprmUncompressor.uncompressPAP(ParagraphSprmUncompressor.java:47)
at org.apache.poi.hwpf.model.StyleSheet.createPap(StyleSheet.java:241)
at org.apache.poi.hwpf.model.StyleSheet.<init>(StyleSheet.java:116)
at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:260)
at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocument.java:157)
at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:62)
at org.apache.poi.hwpf.extractor.WordExtractor.<init>(WordExtractor.java:54)
at com.index.extractor.impl.WordFileTextExtractor.getText(WordFileTextExtractor.java:22)
at test.TextConvert.convert(TextConvert.java:147)
at test.TextConvert.getEFiles(TextConvert.java:111)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.getEFiles(TextConvert.java:130)
at test.TextConvert.go(TextConvert.java:47)
at test.TextConvert.main(TextConvert.java:42)
解决:
WordExtractor extractor = new WordExtractor(inputStream);
bodyText = extractor.getText();
使用的jar包:
- 大小: 12 KB
分享到:
相关推荐
如标题所示,Spire.Doc支持获取Word文档中段落(Paragraph)和文本范围(TextRange)的样式,例如标题(Title)、标题1(Heading 1)、副标题(Subtitle)等。当然,我们也可以根据标题样式获取对应的文本。在此基础...
型钢悬挑脚手架展板.docWord文档.doc
spire.doc核心jar包,可操作word文档,合并文档
专升本计算机知识点扩展名总结.doc
该文件是对 Spire.Doc.dll DLL文件的简介 运行环境:未知 软件语言:简体中文 适合系统:X86系统 软件大小:4661248 B 更新时间:2011-08-14 18:56:58 文件版本:3.6.2.2 安全检测:诺顿 瑞星 卡巴 江民 金山 ...
Free Spire.Doc for .NET是一款免费的专门对 Word 文档进行操作的 .NET类库。适用于商业或个人用途。这款控件的主要功能在于帮助开发人员轻松快捷高效地创建、编辑和转换 Microsoft Word 文档。作为一款独立的 Word ...
Free Spire.Doc for .NET 能帮助用户将 Word 文件保存在流中,也可以保存为 Web response,还支持将 Word 文件与 XML、RTF、EMF、 TXT、XPS、EPUB、HTML 等格式文件之间的双向转换。同时,它还支持将 Word 文件转换...
1.功能: 1.1 文档转换:Word转PDF/图片/XPS/XML/RTF/...lib文件夹下包含了用于在java程序中的Spire.Doc.jar文件,在项目程序中调用接口方法时,需要导入该jar文件;doc文件下包含了所有类及方法的说明解释等。
Spire.Doc API 为Spire.Doc 帮助文档,详细罗列Spire.Doc 控件提供的各种类,接口以及属性。对于如何了解和使用产品,有很好的指导意义。
计算机文件常用扩展名.doc
免费Spire.Doc for .NET是e-iceblue公司推出的一款专门对Microsoft Word 文档进行操作的.NET类控件。这款控件的主要功能在于帮助开发人员轻松快捷地生成、编辑和查看Word文档。同时,开发人员还可以通过使用Spire....
题常用文件及其扩展名.doc
在日常工作中,我们可能常常需要打印各种文件资料,比如word文档。对于编程员,应用程序中文档的打印是一项非常重要的功能,也一直是一个非常复杂的工作。特别是提到Web打印,这的确会很棘手。一般如果要想选择非...
c#操作word文档提供c#操作word的源代码。
常见电脑文件扩展名对应文件格式查询文件格式后缀文件扩展名.doc
(精品word)通信面试问题汇总.doc
Word (.doc) Binary File Format,Microsoft的word 2003标准,描述word字节文档的数据结构