使用POI来处理Excel和Word文件格式

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 15927 次

锁定老帖子主题：使用POI来处理Excel和Word文件格式精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (1)
作者	正文
ma_shijie 等级: 初级会员性别: 文章: 1 积分: 40 来自: 北京	发表时间：2008-01-17 相关推荐: WebService接口出入参以XML形式传参 WebService配置及使用,入参到大小写问题处理 SOAP和WSDL的一些必要知识 C# WebService的开发以及客户端调用 C# HttpWebRequest 发送SOAP XML 更多相关推荐企业应用 Microsoft的Office系列产品拥有大量的用户，Word、Excel也成为办公文件的首选。在Java中，已经有很多对于Word、Excel的开源的解决方案，其中比较出色的是Apache的Jakata项目的POI子项目。该项目的官方网站是http://jakarta.apache.org/poi/。 POI包括一系列的API，它们可以操作基于MicroSoft OLE 2 Compound Document Format的各种格式文件，可以通过这些API在Java中读写Excel、Word等文件。POI是完全的Java Excel和Java Word解决方案。POI子项目包括：POIFS、HSSF、HDF、HPSF。表7-2对它们进行了简要介绍。表7-2 POI子项目介绍子项目名说明 POIFS(POI File System) POIFS是POI项目中最早的最基础的一个模块，是Java到OLE 2 Compound Document Format的接口，支持读写功能，所有的其他项目都依赖与该项目。 HSSF(Horrible Spreadsheet Format) HSSF是Java到Microsoft Excel 97(-2002)文件的接口，支持读写功能 HWPF(Horrible Word Processing Format) HWPF是Java到Microsoft Word 97文件的接口，支持读写功能，但目前该模块还处于刚开始开发阶段，只能实现一些简单文件的操作，在后续版本中，会提供更强大的支持 HPSF(Horrible Property Set Format) HPSF 是Java到OLE 2 Compound Document Format文件的属性设置的接口，属性设置通常用来设置文档的属性（标题，作者，最后修改日期等），还可以设置用户定义的属性。HPSF支持读写功能，当前发布版本中直支持读功能。 7.3.1 对Excel的处理类下面通过HSSF提供的接口对Excel文件经行处理。首先需要下载POI的包，可以到apache的官方网站下载，地址为：http://apache.justdn.org/jakarta/poi/，本书采用的是poi-2.5.1-final-20040804.jar，读者可以下载当前的稳定版本。把下载的包按照前面介绍的方式加入Build Path，然后新建一个ch7.poi包，并创建一个ExcelReader类。 ExcelReader类可以读取一个XLS文件，然后将其内容逐行提取出来，写入文本文件。其代码如下。代码7.6 public class ExcelReader { // 创建文件输入流 private BufferedReader reader = null; // 文件类型 private String filetype; // 文件二进制输入流 private InputStream is = null; // 当前的Sheet private int currSheet; // 当前位置 private int currPosition; // Sheet数量 private int numOfSheets; // HSSFWorkbook HSSFWorkbook workbook = null; // 设置Cell之间以空格分割 private static String EXCEL_LINE_DELIMITER = " "; // 设置最大列数 private static int MAX_EXCEL_COLUMNS = 64; // 构造函数创建一个ExcelReader public ExcelReader(String inputfile) throws IOException, Exception { // 判断参数是否为空或没有意义 if (inputfile == null \|\| inputfile.trim().equals("")) { throw new IOException("no input file specified"); } // 取得文件名的后缀名赋值给filetype this.filetype = inputfile.substring(inputfile.lastIndexOf(".") + 1); // 设置开始行为0 currPosition = 0; // 设置当前位置为0 currSheet = 0; // 创建文件输入流 is = new FileInputStream(inputfile); // 判断文件格式 if (filetype.equalsIgnoreCase("txt")) { // 如果是txt则直接创建BufferedReader读取 reader = new BufferedReader(new InputStreamReader(is)); } else if (filetype.equalsIgnoreCase("xls")) { // 如果是Excel文件则创建HSSFWorkbook读取 workbook = new HSSFWorkbook(is); // 设置Sheet数 numOfSheets = workbook.getNumberOfSheets(); } else { throw new Exception("File Type Not Supported"); } } // 函数readLine读取文件的一行 public String readLine() throws IOException { // 如果是txt文件则通过reader读取 if (filetype.equalsIgnoreCase("txt")) { String str = reader.readLine(); // 空行则略去，直接读取下一行 while (str.trim().equals("")) { str = reader.readLine(); } return str; } // 如果是XLS文件则通过POI提供的API读取文件 else if (filetype.equalsIgnoreCase("xls")) { // 根据currSheet值获得当前的sheet HSSFSheet sheet = workbook.getSheetAt(currSheet); // 判断当前行是否到但前Sheet的结尾 if (currPosition > sheet.getLastRowNum()) { // 当前行位置清零 currPosition = 0; // 判断是否还有Sheet while (currSheet != numOfSheets - 1) { // 得到下一张Sheet sheet = workbook.getSheetAt(currSheet + 1); // 当前行数是否已经到达文件末尾 if (currPosition == sheet.getLastRowNum()) { // 当前Sheet指向下一张Sheet currSheet++; continue; } else { // 获取当前行数 int row = currPosition; currPosition++; // 读取当前行数据 return getLine(sheet, row); } } return null; } // 获取当前行数 int row = currPosition; currPosition++; // 读取当前行数据 return getLine(sheet, row); } return null; } // 函数getLine返回Sheet的一行数据 private String getLine(HSSFSheet sheet, int row) { // 根据行数取得Sheet的一行 HSSFRow rowline = sheet.getRow(row); // 创建字符创缓冲区 StringBuffer buffer = new StringBuffer(); // 获取当前行的列数 int filledColumns = rowline.getLastCellNum(); HSSFCell cell = null; // 循环遍历所有列 for (int i = 0; i < filledColumns; i++) { // 取得当前Cell cell = rowline.getCell((short) i); String cellvalue = null; if (cell != null) { // 判断当前Cell的Type switch (cell.getCellType()) { // 如果当前Cell的Type为NUMERIC case HSSFCell.CELL_TYPE_NUMERIC: { // 判断当前的cell是否为Date if (HSSFDateUtil.isCellDateFormatted(cell)) { // 如果是Date类型则，取得该Cell的Date值 Date date = cell.getDateCellValue(); // 把Date转换成本地格式的字符串 cellvalue = cell.getDateCellValue().toLocaleString(); } // 如果是纯数字 else { // 取得当前Cell的数值 Integer num = new Integer((int) cell .getNumericCellValue()); cellvalue = String.valueOf(num); } break; } // 如果当前Cell的Type为STRIN case HSSFCell.CELL_TYPE_STRING: // 取得当前的Cell字符串 cellvalue = cell.getStringCellValue().replaceAll("'", "''"); break; // 默认的Cell值 default: cellvalue = " "; } } else { cellvalue = ""; } // 在每个字段之间插入分割符 buffer.append(cellvalue).append(EXCEL_LINE_DELIMITER); } // 以字符串返回该行的数据 return buffer.toString(); } // close函数执行流的关闭操作 public void close() { // 如果is不为空，则关闭InputSteam文件输入流 if (is != null) { try { is.close(); } catch (IOException e) { is = null; } } // 如果reader不为空则关闭BufferedReader文件输入流 if (reader != null) { try { reader.close(); } catch (IOException e) { reader = null; } } } } 7.3.2 ExcelReader的运行效果下面创建一个main函数，用来测试上面的ExcelReader类，代码如下。代码7.7 public static void main(String[] args) { try{ ExcelReader er=new ExcelReader("c:\\xp.xls"); String line=er.readLine(); while(line != null){ System.out.println(line); line=er.readLine(); } er.close(); }catch(Exception e){ e.printStackTrace(); } } main函数先创建一个ExcelReader类，然后调用它提供的接口readLine，对XLS文件进行读取，打印到控制台，处理前的XLS文件如图7-12所示。图7-12 处理前的XLS文件内容运行main函数进行内容提取后，Eclipse的控制台输出如图7-13所示。图7-13 输出结果可以看到，Excel文件中的内容已经被成功的输出了出来。 7.3.3 POI中Excel文件Cell的类型在读取每一个Cell的值的时候，通过getCellType方法获得当前Cell的类型，在Excel中Cell有6种类型，如表7-3所示。表7-3 Cell的类型 CellType 说明 CELL_TYPE_BLANK 空值 CELL_TYPE_BOOLEAN 布尔型 CELL_TYPE_ERROR 错误 CELL_TYPE_FORMULA 公式型 CELL_TYPE_STRING 字符串型 CELL_TYPE_NUMERIC 数值型本例采用了CELL_TYPE_STRING和CELL_TYPE_NUMERIC类型，因为在Excel文件中只有字符串和数字。如果Cell的Type为CELL_TYPE_NUMERIC时，还需要进一步判断该Cell的数据格式，因为它有可能是Date类型，在Excel中的Date类型也是以Double类型的数字存储的。Excel中的Date表示当前时间与1900年1月1日相隔的天数，所以需要调用HSSFDateUtil的isCellDateFormatted方法，判断该Cell的数据格式是否是Excel Date类型。如果是，则调用getDateCellValue方法，返回一个Java类型的Date。实际上Excel的数据格式有很多，还支持用户自定义的类型，在Excel中，选择一个单元格然后右键选择“设置单元格格式”，在弹出的单元格格式中选中“数字”，如图7-14所示。图7-14 Excel的单元格格式图中的数据有数值、货币、时间、日期、文本等格式。这些数据格式在POI中的HSSFDataFormat类里都有相应的定义。 HSSFDataFormat是HSSF子项目里面定义的一个类。类HSSFDataFormat允许用户新建数据格式类型。HSSFDataFormat类包含静态方法static java.lang.String getBuiltinFormat(short index)，它可以根据编号返回内置数据类型。另外static short getBuiltinFormat(java.lang.String format)方法则可以根据数据类型返回其编号，static java.util.List getBuiltinFormats()可以返回整个内置的数据格式列表。在HSSFDataFormat里一共定义了49种内置的数据格式，如表7-4所示。表7-4 HSSFDataFormat的数据格式内置数据类型编号 "General" 0 "0" 1 "0.00" 2 "#,##0" 3 "#,##0.00" 4 "($#,##0_);($#,##0)" 5 "($#,##0_);[Red]($#,##0)" 6 "($#,##0.00);($#,##0.00)" 7 "($#,##0.00_);[Red]($#,##0.00)" 8 "0%" 9 "0.00%" 0xa "0.00E+00" 0xb "# ?/?" 0xc "# ??/??" 0xd "m/d/yy" 0xe "d-mmm-yy" 0xf "d-mmm" 0x10 "mmm-yy" 0x11 "h:mm AM/PM" 0x12 "h:mm:ss AM/PM" 0x13 "h:mm" 0x14 "h:mm:ss" 0x15 "m/d/yy h:mm" 0x16 保留为过国际化用 0x17 - 0x24 "(#,##0_);(#,##0)" 0x25 "(#,##0_);[Red](#,##0)" 0x26 "(#,##0.00_);(#,##0.00)" 0x27 "(#,##0.00_);[Red](#,##0.00)" 0x28 "_($#,##0_);_($(#,##0);_($* \"-\"_);_(@_)" 0x29 "_(#,##0.00_);_((#,##0.00);_(\"-\"??_);_(@_)" 0x2a "_($#,##0.00_);_($(#,##0.00);_($\"-\"??_);_(@_)" 0x2b "_($#,##0.00_);_($(#,##0.00);_($*\"-\"??_);_(@_)" 0x2c "mm:ss" 0x2d "[h]:mm:ss" 0x2e "mm:ss.0" 0x2f "##0.0E+0" 0x30 "@" - This is text format 0x31 在上面表中，字符串类型所对应的是数据格式为"@"（最后一行），也就是HSSFDataFormat中定义的值为0x31（49）的那行。Date类型的值的范围是0xe-0x11，本例子中的Date格式为""m/d/yy""，在HSSFDataFormat定义的值为0xe（14）。需要注意的一点是，所创建的Excel必须是在Microsoft Excel 97到Excel XP的版本上的，如果在Excel 2003中创建文件后，在使用POI进行解析时，可能会出现问题。它会把Date类型当作自定义类型。POI目前只提供对Microsoft Excel XP以下的版本的支持，在以后的版本中，希望会提供对Microsoft Excel 2003更好的支持。 7.3.4 对Word的处理类除了支持对Excel文件的读取外，POI还提供对Word的DOC格式文件的读取。但在它的发行版本中没有发布对Word支持的模块，需要另外下载一个POI的扩展的Jar包。用户可以到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载，本书采用的是tm-extractors-0.4_zip。下载后，把该包加入工程的Build Path中，然后在ch7.poi包下新建一个类WordReader，该类提供一个静态方法readDoc，读取一个DOC文件并返回文本。函数内容很简单，就是调用WordExtractor的API来提取DOC的内容到字符串，该函数的代码如下。代码7.8 public static String readDoc(String doc) throws Exception { // 创建输入流读取DOC文件 FileInputStream in = new FileInputStream(new File(doc)); WordExtractor extractor = null; String text = null; // 创建WordExtractor extractor = new WordExtractor(); // 对DOC文件进行提取 text = extractor.extractText(in); return text; } 在同一个类里创建一个main函数，测试WordReader，该main函数代码如下。代码7.9 public static void main(String[] args) { try{ String text = WordReader.readDoc("c:/test.doc"); System.out.println(text); }catch(Exception e){ e.printStackTrace(); } } 处理前的Doc文件如图7-15所示。图7-15 处理前的Word文档使用代码处理后的文本如图7-16所示。图7-16 处理后的结果可以看到Word文档内的文本已经全部被提取了出来。本文来自:http://book.csdn.net/bookfiles/312/10031212845.shtml 出自书籍:开发自己的搜索引擎——Lucene 2.0+Heriterx(http://book.csdn.net/bookfiles/312/) 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

ralin 等级: 初级会员文章: 2 积分: 30 来自: ...	发表时间：2008-01-17 可以将现有html文件,直接转换成doc文件吗?
返回顶楼	回帖地址 0 0 请登录后投票

myyate 等级: 性别: 文章: 343 积分: 140 来自: 上海	发表时间：2008-01-18 ralin 写道可以将现有html文件,直接转换成doc文件吗? 当然可以了。但是html的资源文件会丢失，如果不想丢失，可以考虑把html文件转换成mht格式，然后在转换成doc。
返回顶楼	回帖地址 0 0 请登录后投票

llm6101 等级: 初级会员性别: 文章: 40 积分: 30 来自: 北京	发表时间：2008-06-19 有个问题，如果word文档里有表格或者图片，打印出来的字符串里就有乱码(小四方块)，请问该如何解决
返回顶楼	回帖地址 0 0 请登录后投票

ityc 等级: 初级会员性别: 文章: 6 积分: 40 来自: 北京	发表时间：2008-11-04 遇到同样的问题，，需要从word，pdf，中读取纯文本值。。但是不需要其他的格式的东西，例如表格，图片，横线，页眉。。等等，总之需要文本值。。怎么获取。。。
返回顶楼	回帖地址 0 0 请登录后投票

sdh5724 等级: 性别: 文章: 1273 积分: 970 来自: 杭州	发表时间：2008-11-04 是不是你没有使用UTF-8造成的. 我以前好象也遇见过, 不过全程使用UTF-8就好了.
返回顶楼	回帖地址 0 0 请登录后投票

supersnake 等级: 初级会员文章: 14 积分: 30	发表时间：2008-11-13 以前写过POI导出excel
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: