Java获取TXT文本和Word文件的内容并显示在页面
注意2003版本的word和2007以上的word需要用不同的jar包来获取!
1.TXT文本:
import java.io.BufferedReader; import java.io.FileReader; StringBuffer texts =new StringBuffer(); BufferedReader br = new BufferedReader(new FileReader(file)); // String line = null; while ((line = br.readLine()) != null) { texts.append(line); } br.close();
注意:按照上面的方式,会出现中文乱码问题!
解决方式:加上编码转换
StringBuffer texts =new StringBuffer(); InputStreamReader isr = new InputStreamReader(new FileInputStream(file), "UTF-8");//加上编码转换 BufferedReader read = new BufferedReader(isr); String line = null; while ((line = br.readLine()) != null) { texts.append(line); } br.close();
2.Word2003——doc格式:
import java.io.FileInputStream; import org.apache.poi.hwpf.extractor.WordExtractor; try { FileInputStream inputStream = new FileInputStream(file); WordExtractor extractor = new WordExtractor(inputStream); text = extractor.getText(); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (Exception e) { e.printStackTrace(); }
或者
import java.io.FileInputStream; import org.textmining.text.extraction.WordExtractor;//引入包不同 try { FileInputStream inputStream = new FileInputStream(file); WordExtractor extractor = new WordExtractor();//此处无参数 text = extractor.getText(inputStream);//此处有参数 } catch (FileNotFoundException e) { e.printStackTrace(); } catch (Exception e) { e.printStackTrace(); }
注意注释的不同之处!
3.Word2007及以上版本——docx格式:
使用到的 jar 包
* poi-3.9-20121203.jar
* poi-ooxml-3.9-20121203.jar
* poi-ooxml-schemas-3.9-20121203.jar
* poi-scratchpad-3.9-20121203.jar
* xmlbeans-2.3.0.jar
* dom4j-1.6.1.jar
import org.apache.poi.POIXMLDocument; import org.apache.poi.POIXMLTextExtractor; import org.apache.poi.openxml4j.opc.OPCPackage; import org.apache.poi.xwpf.extractor.XWPFWordExtractor; try { OPCPackage opcPackage = POIXMLDocument.openPackage(filePath); POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage); text = extractor.getText(); } catch (IOException e) { e.printStackTrace(); } catch (XmlException e) { e.printStackTrace(); } catch (OpenXML4JException e) { e.printStackTrace(); }
4.实例分析:
long id = Long.valueOf(request.getParameter("id")); PolicyDao policyDao = new PolicyDao(); Policy policy = policyDao.getPolicy(id); //读取文件中的内容 StringBuffer fileContent = new StringBuffer(); String fileName = policy.getFilePath(); String uploadPath = Configuration.getConfig().getString("policyFilesPath"); File file = new File(uploadPath+fileName); if(file.exists()){ String suffix = file.getName().substring(file.getName().lastIndexOf(".")+1); //Word2003 if (suffix.equals("doc")) { FileInputStream fis = new FileInputStream(file); WordExtractor wordExtractor = new WordExtractor(fis); String text = wordExtractor.getText(); fileContent.append(text); } //Word2007 else if (suffix.equals("docx")) { OPCPackage opcPackage = POIXMLDocument.openPackage(uploadPath+fileName); POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage); String text = extractor.getText(); fileContent.append(text); } //TXT else if (suffix.equals("txt")) { BufferedReader bufferReader = new BufferedReader(new InputStreamReader(new FileInputStream(file),"utf-8")); //每从BufferedReader对象中读取一行字符。 String line = null; while((line=bufferReader.readLine()) !=null){ fileContent.append(line); } bufferReader.close(); } }else{ System.out.println("文件不存在!"); } //输出 request.setAttribute("content", fileContent); request.setAttribute("name", policy.getTitle()); request.setAttribute("id", policy.getId()); request.getRequestDispatcher("/frontShow/document-info.jsp").forward(request, response); return;
出现类似于: IOException:Unable to read entire block; 362 bytes read; expected 512 bytes的异常
解决办法:既然expected 512 bytes ,那我就写够512bytes
ByteArrayOutputStream byteOS = new ByteArrayOutputStream(); FileInputStream fis = new FileInputStream(fileToBeRead); byte[] by = new byte[512]; int t = fis.read(by,0,by.length); while(t>0){ byteOS.write(by, 0, 512); //这里别写成t,写够512,呵呵,SB的方法对付SB的java API t = fis.read(by,0,by.length); } byteOS.close(); InputStream byteIS = new ByteArrayInputStream(byteOS.toByteArray()); HSSFWorkbook workbook = new HSSFWorkbook(byteIS);
实例如下:
if(file.exists()){ String suffix = file.getName().substring(file.getName().lastIndexOf(".")+1); if (suffix.equalsIgnoreCase("doc")) { FileInputStream fis = new FileInputStream(file); /*byte buf[] = IOUtils.toByteArray(fis); ByteArrayInputStream bs = new ByteArrayInputStream(buf);*/ ByteArrayOutputStream byteOS = new ByteArrayOutputStream(); byte[] by = new byte[512]; int t = fis.read(by,0,by.length); while(t>0){byteOS.write(by, 0, 512); //这里别写成t,写够512,呵呵,SB的方法对付SB的java API t = fis.read(by,0,by.length); } InputStream byteIS = new ByteArrayInputStream(byteOS.toByteArray()); WordExtractor wordExtractor = new WordExtractor(byteIS); String text = wordExtractor.getText(); fileContent.append(text); fis.close(); byteOS.close(); byteIS.close(); } ......
相关推荐
java调用PageOffice在线编辑word文件的时候,获取word文档的条目化内容。 PageOffice V4.0 企业版试用序列号:Q37LN-W8NI-KFSQ-LEY3Y 部署步骤: 1. 拷贝simpledemo8文件夹到Tomcat的webapps目录下 2. 访问...
java 利用POI读取Word文件中的内容 java 利用POI读取Word文件中的内容
读取word文件的内容,并将内容返回为String类型!
比较两个word内容将不一样的地方标记出来
工程作用:读取本地TXT文件并显示在JSP页面上 运行环境:Tomcat, JAVA EE6.0,搜狗高速浏览器 程序作者:Roy Liu 直接添加到MyEclipse中即可运行。 源程序内有代码注释。 已知BUG: 1、未输入文件地址时,会报错;...
Java根据word 模板,生成自定义内容的word 文件案列使用的工具文件
POI操作word只能获取word中的书签,并不能进行操作.java2word可以实现,但是除了java2word.jar包以外,还要一个dll文件放在system32文件夹下,环境部署在linux服务器上,谁允许你放这样的文件,结果死心了....
用java修改Word文件,JAVA操作WORD实例
java读取TXT文件入库,java读取TXT文件入库,java读取TXT文件入库,
\java通过url在线预览Word、excel、ppt、pdf、txt文档中的内容 \java通过url在线预览Word、excel、ppt、pdf、txt文档中的内容
本代码实现使用Java程序读取word文档成网页,将word文档按原样在网页输出。项目编码为UTF-8,文件编码也是utf8,再不要说乱码这种骚话了,选择utf8加载项目就不会乱码
java读取txt文件,可以以文件路径构造这个流,:FileInputStream fin = new FileInputStream("d:/test.txt"); 然后使用这个流直接读取到文件,再使用reader构造BufferedReader,按行读取一整行的文本,作为字符串返回...
用Java实现txt文件转pdf文件,最精简的代码,里面包含了所需要的jar包,代码一目了然!
使用docx4j把html转化成Word文档,可以生成doc或docx,需要的jar都在里面了
java 读取txt文本文件中的数据并保存到数据库中源代码,假设txt已有格式,并以","分隔。其中的sql包需要自己去微软官网下载。
Java对PageOffice编程,从空白的word模板动态生成word文件,填充文本内容、图片,同时设置文本的字体、段落、格式。 PageOffice是标准Java组件,标准JSP Tag标签方式引用,完美支持Eclipse、MyEclipse等开发工具。 ...
* 功能:Java读取txt文件的内容 * 步骤:1:先获得文件句柄 * 2:获得文件句柄当做是输入一个字节码流,需要对这个输入流进行读取 * 3:读取到输入流后,需要读取生成字节流 * 4:一行一行的输出。readline...
关于数据查找与提取的java代码,使用者可以通过java 程序进行对txt文件内容的咨询与查找
使用java的方式将word文档转换成html页面。包含代码实例和所需的jar包
利用Java下的IO读取或写入xml及word,txt文件,且能有效去除乱码(很适用,且和POI组建比,少占了很多内存),这是我根据网上很多不同的版本,整合而出的一种最易最好的IO读写文件代码;