关于POI提取word中文本，除掉页眉页脚 - - ITeye博客

`

RobustTm

浏览: 23684 次
性别:
来自: 武汉

最近访客更多访客>>

magicfish1981

jiduoduo

sdzhihao

woailihui

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

linangong：把poi这个包更新到poi-3.5-beta6就可以用了
POI 提取Word文本出错
RobustTm： shenhuawei18 写道我今天也碰到了这个问题，是不是X ...
POI 提取Word文本出错
shenhuawei18：我今天也碰到了这个问题，是不是XWPFWordExtracto ...
POI 提取Word文本出错
RobustTm：我的实现如下 IndexWriter indexWriter ...
大家说说如何实现多用户创建索引

关于POI提取word中文本，除掉页眉页脚

阅读更多

需要相关七个jar

poi-3.7-20101029.jar

poi-ooxml-3.7-20101029.jar

poi-ooxml-schemas-3.7-20101029.jar

poi-scratchpad-3.7-20101029.jar

dom4j-1.6.1.jar

geronimo-stax-api_1.0_spec-1.0.jar

xmlbeans-2.3.0.jar

public static String wordExtractor(String fileName){
  try{
  InputStream in = new FileInputStream(fileName);
  String header,footer,allText;
  int end;
  if(getSuffix(fileName).equals("doc")){
  WordExtractor wordExtractor = new WordExtractor(in);
  header = wordExtractor.getHeaderText();
  footer = wordExtractor.getFooterText();
  allText = wordExtractor.getText();
  end = allText.indexOf(footer);
  return allText.substring(header.length(), end);
  }else if(getSuffix(fileName).equals("docx")){
   OPCPackage opcPackage = POIXMLDocument.openPackage(fileName);
   POIXMLTextExtractor ex = new XWPFWordExtractor(opcPackage);
   return ex.getText();
  }else{
   return null;
  }
  }catch(IOException e){
   e.printStackTrace();
   return null;
  } catch (XmlException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
   return null;
  } catch (OpenXML4JException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
   return null;
  }
}

看到网上大部分也就是这个例子，利用getText()获取文本信息，但是这个信息中都包括了页眉和页脚吧，

如何处理能够除掉这些页眉页脚？

上面的代码只是能够除掉word2003中的页眉和页脚，不知道word2007如何处理

分享到：

POI 提取Word文本出错 | Lucene 高亮显示

2011-03-11 19:10
浏览 3161
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

POI导出Word 页眉页脚标题设置: POI导出Word包含页眉页脚的设置，标题的设置以及显示显示设置，包括POI操作Word完整的jar包

用poi提取word中的图片和文字: 注意：先下载开源包poi，把jar文件加入到你的项目里。

java html模板 itext 生成pdf 页眉页脚合并pdf列子: 搜索了好多篇例子，算是强拼硬凑成现在的样子，还算比较满意吧。此包中包含可测试成功代码，关联模板、字体文件、jar等希望能帮助到大家。这篇文章的作者蛮厉害，有不少借鉴。 ...

poi合并多个word文档并设置页码: 资源描述了poi对于word的操作，poi合并word文档，poi设置word页码，内含maven依赖文档和完整代码，是一个完整工程，打开即可用

使用poi将word读取后替换指定内容后再次生成新word: 使用poi将word读取后替换指定内容后再次生成新word，本人经过测试，拿来即用！

POI-TL合并多个Word文档: POI-TL合并多个Word文档

poi生成wordpoi生成word: poi生成wordpoi生成wordpoi生成wordpoi生成wordpoi生成wordpoi生成wordpoi生成wordpoi生成wordpoi生成word

word页眉_页脚_页码_word使用技巧: 关于word页眉页脚，目录自动生成，分节符的使用，页码的使用等等技巧。

POI报表Word导出: POI报表Word导出

POI 生成Word文档: POI 生成Word文档

使用poi替换word中的图片: 使用poi替换word中的图片，无需加书签，doc/docx均可，亲测。

java 利用POI读取Word文件中的内容: java 利用POI读取Word文件中的内容 java 利用POI读取Word文件中的内容

Java POI 生成Word文档: Java POI 生成Word文档，支持图片插入，关键是修改XML部分，本人已测试通过。

POI-2.5.2.jar，三个包，另附送POI提取word内容源代码: 包括三个文件： 1、poi-2.5.1.jar 2、poi-contrib-2.5.1.jar 3、poi-scratchpad-2.5.1.jar 经过测试可以使用；另外，附简单应用实例，通过POI提取word内容源代码！

使用java Apache poi 根据word模板生成word报表例子: 使用java Apache poi 根据word模板生成word报表仅支持docx格式的word文件，大概是word2010及以后版本，doc格式不支持。使用说明：https://blog.csdn.net/u012775558/article/details/79678701

POI 替换word2007文本框的值: POI 替换word2007文本框的值POI,包含word表中的文本框的值，定义好word模板即可替换word中的值。

POI操作Word中插入文本和图片: POI对Word的操作，特别是针对生成报告模板时，向word中写入文本和图片。

POI读取 word 2003 和 word 2007 的例子: 这是一个POI读取word 2003 和 word 2007的例子是一个Eclipse工程下载后直接导入工程运行 src 目录下的 Test java 类即可这个 rar 包中包含着 POI 读取word 2003 和 word 2007 所需要的 jar 包也有需要读取的 ...

POI使用word模板文件循环输出行并导出word: 一个使用Apache的poi使用word模板循环输出表格行并导出的例子

poi操作word在页眉上添加图片: poi操作word在页眉上添加图片

Global site tag (gtag.js) - Google Analytics