POI 之二 poi操作解析word -

haofenglemon

浏览: 240647 次
性别:
来自: 北京

最近访客更多访客>>

huanghaiyun333

xh194910

ayizylusi

liyuan1978

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

POI 之二 poi操作解析word

博客分类：

haofeng

Java Apache EJB Excel

POI是Apache的一个开源项目，可以到Apache网站下载相应的jar包文件，及其源文件。

POI提供了提取一些非TXT文本中文本内容的API，比如提取Word，Excel等，使用起来非常方便。

为了说明POI提起Word文件的方便和简单，通过提取一个Word文件的文本来，来了解POI API的功能。

假设在本地磁盘中存在一个Word文件

E:\POI\word\JBoss3.0 下配置和部署EJB简介.doc文件是具有格式的，内容如图所示：

下面看看提取它的内容是多么简单。

首先从Apache网站上下载POI的相关jar包。

新建一个测试类：

package org.shirdrn.word;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

import org.apache.poi.hwpf.extractor.WordExtractor;

public class MyWordExtractor {

public static void main(String[] args) {
   File file = new File("E:\\POI\\word\\JBoss3.0 下配置和部署EJB简介.doc");
   try {
    FileInputStream fis = new FileInputStream(file);
    WordExtractor wordExtractor = new WordExtractor(fis);
    System.out.println("【使用getText()方法提取的Word文件的内容如下所示：】");
    System.out.println(wordExtractor.getText());
   } catch (FileNotFoundException e) {
    e.printStackTrace();
   } catch (IOException e) {
   e.printStackTrace();
}
}
}

提取Word文件的文本内容，打印到控制台上，如下所示：

使用WordExtractor类的getTextFromPieces()方法提取：

wordExtractor.getTextFromPieces();

结果和上面是一样的。

WordExtractor类还有一个可以提取Word文件的各个段落的方法getParagraphText()，返回一个String[]数组，数组中每个元素为一个段的文本内容。

这里，对Word文件中换行也看成是一个段，测试如下：

package org.shirdrn.word;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

import org.apache.poi.hwpf.extractor.WordExtractor;

public class MyWordExtractor {

public static void main(String[] args) {
   File file = new File("E:\\POI\\word\\JBoss3.0 下配置和部署EJB简介.doc");
   try {
    FileInputStream fis = new FileInputStream(file);
    WordExtractor wordExtractor = new WordExtractor(fis);
    System.out.println("【使用getText()方法提取的Word文件的内容如下所示：】");
    String[] paragraph = wordExtractor.getParagraphText();
    System.out.println("该Word文件共有"+paragraph.length+"段。");
    for(int i=0;i<paragraph.length;i++){
     System.out.println("< 第 "+(i+1)+" 段的内容为 >");
     System.out.println(paragraph[i]);
    }
   } catch (FileNotFoundException e) {
    e.printStackTrace();
   } catch (IOException e) {
   e.printStackTrace();
}
}
}

提取Word文件的文本内容，打印到控制台上，如下所示：

从上面的Word文件可以看出，最后一行是Word文件的一个换行符，使用WordExtractor提取时，也把它默认成为一个段，因为一个段结束后应该有一个回车换行符。

如果有多个Word文件，而且放在不同的目录下，要提取它们的文本内容，可以实现一个递归的函数，通过深度遍历，为每一个Word文件进行提取。

如果需要，可以将提取到的Word文件的文本内容输出到本地磁盘中，比如以txt记事本的根式保存。

从上面可以看出，提取Word文件的文本内容，实际上是将Word文件的格式去掉了，获取到文本的内容。

分享到：

利用poi操作word文档 | POI 之一

2010-01-13 09:11
浏览 5198
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

POI 之二 poi操作解析word

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

POI 之二 poi操作解析word

评论

发表评论

相关推荐

jxl导出excel

生成excel表格

Ext动态树加载问题

Ext 树级联选中子节点

subtree

subtreepanel

com.sun.crypto.provider.SunJCE

利用poi操作word文档

POI 之一

java 生成xml文件

javascript 应用

端口查询

Eclipse插件

spring简单的下例子

ssh整合报错

MyEclipse中连接Oracle中文版的时候报sql level1的错误

如何在eclipse中添加配置文件dtd描述

双系统grub引导出错

Spring error

SpringAop 报错

最近访客更多访客>>