自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 39802 次

已锁定主题：自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer 该帖已经被评为精华帖
作者	正文
jolestar 等级: 性别: 文章: 59 积分: 153 来自: 北京	发表时间：2007-03-10 相关推荐: Lucene-2.2.0 源代码阅读学习(32) Lucene-2.3.1 源代码阅读学习(31) Lucene-2.2.0 源代码阅读学习(31) Lucene-2.3.1 源代码阅读学习(32) Lucene-2.3.1 源代码阅读学习(40) 更多相关推荐企业应用 Lucene 前一段时间用lucene做一个搜索程序,找了好长时间的中文分词程序,都没找到合适的,最后自己弄了一个.现在共享出来.希望对大家有用. 分词算法: 基于词库的正向最大匹配算法. 分词词库用的是网上一个叫 segmenter 的分词程序使用的词库. 地址:www.mandarintools.com/segmenter.html 这个segmenter分词程序是把文件按行读取出来,然后把一行假设为一个词,从库中匹配,如果匹配不成功,则去掉一个字,再继续匹配.这样的分词程序,其一,不便在lucene中使用,因为lucene的analyzer是通过Tokenizer分词的,而Tokenizer中一般是对字符流进行处理,每次next返回一个Token,并不是一次性把内容读取进来,处理后再返回结果.其二,按行读取会有个缺点,就是如果文本中恰好把一个词用换行符隔开了,这样这个词也就被切开了,没有被当作一个词处理. 我的程序实现方式:把词库读进内存后构建一个词语树.树的每个节点包含一个字. 比方中国中国人中华民族中华人民共和国几个词,构成的树的结构: 中国^ 华人^ 人民民族^ 共和国^ 懒得上传图片,所以将就着这样表示了.^表示该节点可以构成一个词.分词的过程类似于输入法的联想功能.读取一个字,然后联想,直到联想到不能为止.如果当前可以构成词,便返回一个Token.如果当前不能构成词语,便回溯到最近的可以构成词语的节点,返回.最差的情况就是返回第一个单字.然后从返回结果的下一个字重新开始联想. lucene自带的几个分词程序中,ChineseAnalyzer是按字分的,与StandardAnalyzer对中文的分词没有大的区别.CJKAnalyzer是按两字切分的,比较武断,并且会产生垃圾Token,影响索引大小. 本分词程序的效果取决与词库.您可以用自己的词库替换程序自带的词库.词库是一个文本文件,名称为word.txt. 每一行一个词语,以#开头表示跳过改行.最后保存为UTF-8的文本. 程序的缺陷: 没有加入识别人名和地名的功能该分词的一个应用案例:http://www.cyonline.net 这个网站是我给学校做的,用lucene对pdf ,word,excel,html等多种格式的文档进行解析,索引,提供全文搜索,并实现摘要高亮.这个网站在教育网上,公网用户可能访问起来比较慢. 附件1为分词程序的jar包附件2为分词程序的源码,需要lucene-core.jar,一个比较Analyzer的测试类还需要lucene-analyzers.jar. 有问题或者意见建议请与我联系 jolestar@hotmail.com jolestar@gmail.com ThesaurusAnalyzer.rar (716.8 KB) 描述: 分词程序的jar包下载次数: 4240 ThesaurusAnalyzer_src.rar (652.7 KB) 描述: 分词程序源码下载次数: 4566 test.rar (1.9 KB) 描述: 测试lucene分词的代码.运行ChineseDemo的main()函数,参数为文本路径.请将文本保存为utf-8格式.需要lucene-core-2.1.0.jar,lucene-analyzers-2.1.0.jar这两个包支持. 下载次数: 1736 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

robbin 等级: 资深会员性别: 文章: 6203 积分: 3125 来自: 上海	发表时间：2007-03-10 很棒，非常感谢你的共享。我看你的词库也有19万分词，已经很不错了。
返回顶楼	回帖地址 0 0 请登录后投票

jolestar 等级: 性别: 文章: 59 积分: 153 来自: 北京	发表时间：2007-03-10 呵呵,在javaeye的第一个精华贴,要继续努力.
返回顶楼	回帖地址 0 0 请登录后投票

strongkill 等级: 初级会员文章: 51 积分: 76 来自: 广东	发表时间：2007-03-10 很好啊..加油加油... 问个问题..优先级如何? 例如: 我还清晰地记得我们坐在江边聊天的情境. 分出来是我还清晰地记得我们坐在江边聊天的情境结果清晰被拆开了. 还有其它..还在测试当中.. 密切关注.
返回顶楼	回帖地址 0 0 请登录后投票

jolestar 等级: 性别: 文章: 59 积分: 153 来自: 北京	发表时间：2007-03-10 这个是基于词库的分词算法固有的问题.没有很好的解决方法.。有统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245.有一种解决方案是正向匹配结果后再逆向匹配一次,然后比较结果,消除歧义.最好加入词汇概率统计功能.有歧义的用概率决定. 不过想不来如何做到lucene中去.
返回顶楼	回帖地址 0 0 请登录后投票

bruce.fine 等级: 初级会员文章: 11 积分: 91 来自: ...	发表时间：2007-03-10 佩服楼主，向楼主学习
返回顶楼	回帖地址 0 0 请登录后投票

Reed_Nanjing 等级: 初级会员文章: 1 积分: 32	发表时间：2007-03-10 好，这段时间做一个项目是用TRS做全文搜索的，对lucene也很有兴趣，希望接下来有时间和ｌｚ交流交流
返回顶楼	回帖地址 0 0 请登录后投票

lyx_2709 等级: 初级会员性别: 文章: 23 积分: 30 来自: 大连	发表时间：2007-03-10 很棒,学习了
返回顶楼	回帖地址 0 0 请登录后投票

caocao 等级: 文章: 125 积分: 315 来自: 上海	发表时间：2007-03-10 顶，那句话我用我自己写的分词算法分下来是：我还清晰地记得我们坐在江边聊天的情境我的词库里面有近80万词语，且有一些metadata来配合我的分词算法。以后有空详细介绍。上个效果图大小: 14.6 KB 查看图片附件
返回顶楼	回帖地址 0 0 请登录后投票

robbin 等级: 资深会员性别: 文章: 6203 积分: 3125 来自: 上海	发表时间：2007-03-11 caocao 写道顶，那句话我用我自己写的分词算法分下来是：我还清晰地记得我们坐在江边聊天的情境我的词库里面有近80万词语，且有一些metadata来配合我的分词算法。以后有空详细介绍。分词效果很不错，不过貌似你的代码还没有放出来，很期待你的分词算法
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: