tika

高军威

浏览: 175619 次
性别:
来自: 北京

最近访客更多访客>>

caorucan

coreycool

zswzhj

fuanyu

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java笔记

测试代码：

package com.tika.test;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.FieldType;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.ss.usermodel.Workbook;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.OfficeParser;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.apache.tika.sax.BodyContentHandler;
import org.wltea.analyzer.lucene.IKAnalyzer;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;

public class IndexUtil {
    
    public static void main(String[] args) throws ParseException, IOException, TikaException
    {
        //index();//创建索引
        //System.out.println("ids="+searche("谷歌"));//查询索引
        File f = new File("C:/高军威.xls");
        //tikaTool(f);
        System.out.println(fileToTxt(f));
    }
    
    public static String tikaTool(File f) throws IOException, TikaException {
        Tika tika = new Tika();
        Metadata metadata = new Metadata();
        String str = tika.parseToString(new FileInputStream(f),metadata); 
        for(String name:metadata.names() ) {
            System.out.println(name+":"+metadata.get(name));
        }
        return str;
    }
    
    public static String fileToTxt(File f) {
        //Parser parser = new OOXMLParser();
        //Parser parser = new PDFParser();//PDF 内容获得
        //Parser parser = new HtmlParser(); //网页信息获得
        //Parser parser = new OOXMLParser(); //2010 office用这个
        //Parser parser = new OfficeParser(); //2003以下用这个
        Parser parser = new AutoDetectParser(); //程序自动检测parser 
        InputStream is = null;
        try {
            Metadata metadata = new Metadata();
            metadata.add(Metadata.CONTENT_ENCODING, "utf-8");//html是 设置 防止乱码
            metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());
            is = new FileInputStream(f);
            //Workbook wb =new HSSFWorkbook(is);
            //System.out.println(wb.getSheetAt(0).getRow(0).getCell(0).getStringCellValue());
            ContentHandler handler = new BodyContentHandler();
            ParseContext context = new ParseContext();
            context.set(Parser.class,parser);
            parser.parse(is,handler, metadata,context);
            for(String name:metadata.names()) {
                System.out.println(name+":"+metadata.get(name));
            }
            return handler.toString(); 
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (SAXException e)
        {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (TikaException e)
        {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } finally {
            try {
                if(is!=null) is.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        return null;
    }
    
    public static String searche(String searchString) throws ParseException, IOException
    {
        IKAnalyzer analyzer = new IKAnalyzer();
        String[] fields = {"content"};
        QueryParser parser = new MultiFieldQueryParser(Version.LUCENE_40 ,fields,analyzer);
        Query q2 = parser.parse(searchString);
        
        Directory dir = FSDirectory.open(new File("d:/lucene"));
        IndexReader indexReader = DirectoryReader.open(dir);
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);
        ScoreDoc[] docs = indexSearcher.search(q2,6000).scoreDocs;
        String dd ="";
        if(docs.length>0){
            Document document = indexSearcher.doc(docs[0].doc);
            dd = document.get("ids");
        }
        
        return dd;
    }
    
    public static void index() {
        try {
            File f = new File("C:/ITeye.pdf");
            
            IKAnalyzer analyzer = new IKAnalyzer();
            IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_40,analyzer);
            
            FieldType ft = new FieldType();
            ft.setStored(false); // 设置是否进行存储
            ft.setIndexed(true); // 设置是否能够索引到
            ft.setTokenized(true);// 设置是否进行分词分析
            FieldType ft2 = new FieldType();
            ft2.setStored(true); // 设置是否进行存储
            ft2.setIndexed(true); // 设置是否能够索引到
            ft2.setTokenized(false);// 设置是否进行分词分析

            Directory dir = FSDirectory.open(new File("d:/lucene"));
            IndexWriter writer = new IndexWriter(dir,indexWriterConfig);
            writer.deleteAll();
            Document doc = new Document();
            Field field1 = new Field("content",new Tika().parse(f),ft2);
            Field field2 = new Field("ids","110",ft2);
            doc.add(field1);
            doc.add(field2);
            writer.addDocument(doc);
            writer.close();
        } catch (CorruptIndexException e) {
            e.printStackTrace();
        } catch (LockObtainFailedException e) {
            e.printStackTrace();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }finally{
            System.out.println("索引创建成功！！");
        }
    }
    
}

http://yunpan.cn/Qb93GuJDtIUL5

分享到：

java 给图片添加水印图片 | log4j.properties配置详解

2013-10-18 23:14
浏览 982
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

tika

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

tika

评论

发表评论

相关推荐

BigDecimal商业计算详解

web.xml中load-on-startup标签的含义

Java IO流整理

Java Junit测试例子

javac命令编译 各种编译

HashMap、HashTable、LinkedHashMap和TreeMap用法和区别

上传进度条显示

java图片等比例缩放

将小写金额四舍五入保留两位小数，转换成大写金额

response.setContentType 参数参照

java文件下载

html 转换成pdf

java 程序代码小功能代码

详细解析Java中抽象类和接口的区别

在线支付

java 给图片添加 水印图片

【文件下载】及解决文件名中文乱码问题

日期 字符串截取 格式化 标签

Java实现文件自动打包成zip并下载的代码

java email 发送带附件的邮件

最近访客更多访客>>

javac命令编译各种编译

java 给图片添加水印图片

日期字符串截取格式化标签