Lucene中文分词“庖丁解牛”

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 129693 次

已锁定主题：Lucene中文分词“庖丁解牛” 该帖已经被评为精华帖
作者	正文
denghan 等级: 初级会员文章: 7 积分: 0	发表时间：2007-01-26 一定要顶啊。找这个很久了。 ====================== 偶网站的全文检索烦死了。= 感谢楼主分享啊
返回顶楼	回帖地址 0 0 请登录后投票

waterORwind 等级: 初级会员性别: 文章: 11 积分: 52 来自: 加州硅谷	发表时间：2007-01-26 试了一下，挺快的，支持楼主！
返回顶楼	回帖地址 0 0 请登录后投票

strongkill 等级: 初级会员文章: 51 积分: 76 来自: 广东	发表时间：2007-01-26 imjl 写道呵呵，，泼点冷水，，从应用角度来看我觉得个人做ｌｕｃｅｎｅ中文分词，没有什么商业价值．因为中文分词牵涉的不单单是编程知识，还有自然语言等方面的知识．ＹＡＨＯＯ目前采用的中文分词还是购买的．什么样的公司需要自己订做中文分词？　就ｌｕｃｅｎｅ的两个ａｎａｌｙｚｅｒ足够用了。有多少是做类似ｙａｈｏｏ，ｂａｉｄｕ这样大的搜索引擎，，只有这样的公司需要中文分词，国内还有其他公司需要自己中文分词吗？我觉得都用不到。包括ｓｉｎａ，１６３，ｓｏｈｕ这样的门户。从技术角度我支持你。我們的公司不大.但也要做一套自己中文分詞系統.用於一個即時通信軟體的機械人功能. 當然.公司是不會去買的.. 現在基本完成了.
返回顶楼	回帖地址 0 0 请登录后投票

imjl 等级: 性别: 文章: 678 积分: 166 来自: 上海	发表时间：2007-01-27 strongkill 写道我們的公司不大.但也要做一套自己中文分詞系統.用於一個即時通信軟體的機械人功能. 當然.公司是不會去買的.. 現在基本完成了. 昨天晚上写了回帖，没想到网络不好。问几个问题： 1：你们为什么要自己做分词 2：你们目前做的有什么特点？ 3：哪儿可以try下吗？
返回顶楼	回帖地址 0 0 请登录后投票

Qieqie 等级: 性别: 文章: 515 积分: 698 来自: 北京	发表时间：2007-01-27 imjl 写道呵呵，，泼点冷水，，从应用角度来看我觉得个人做ｌｕｃｅｎｅ中文分词，没有什么商业价值．因为中文分词牵涉的不单单是编程知识，还有自然语言等方面的知识．ＹＡＨＯＯ目前采用的中文分词还是购买的．什么样的公司需要自己订做中文分词？　就ｌｕｃｅｎｅ的两个ａｎａｌｙｚｅｒ足够用了。有多少是做类似ｙａｈｏｏ，ｂａｉｄｕ这样大的搜索引擎，，只有这样的公司需要中文分词，国内还有其他公司需要自己中文分词吗？我觉得都用不到。包括ｓｉｎａ，１６３，ｓｏｈｕ这样的门户。从技术角度我支持你。分词应该还是有很多用途，不仅仅局限在大门户搜索。比如：自动问答/自助服务应用 - 自动客服机器人、天气资讯递送(IM或mail的形式)、知识系统本地化网站的应用 - 地图、地名搜索、电子商务搜索应用 - 商品名、描述准确搜索，以及识别输入项的属性(即，能够根据用户的输入判断是搜索什么属性，比如 “白色”指颜色，“二手”指折旧方面的...) 嫌疑信息识别和过滤 - 手机(骗子)短信、论坛帖子 - (短信量大，分词必须快速) ... 不同的系统，搜索重点不一样，为了提高准确度，除了使用良好的算法，一般会订制自己的一套词汇表。简单的单字分词或二元分词，准确率是很差地。《长尾理论》这本书讲了一个新的经济形式(丰饶经济学)，世界存在着一个很长的需求尾巴，这些需求量虽然很低，但是总是有的，如果将这些需求总加起来，却是一个不可忽略的力量。分词也在各种各样的应用中存在，他虽然没有像大门户网站那样显得突出，但很多需求都需要用到
返回顶楼	回帖地址 0 0 请登录后投票

Qieqie 等级: 性别: 文章: 515 积分: 698 来自: 北京	发表时间：2007-01-28 TODO: 功能： 1、基于边界模板和局部统计的<姓+名>和单<名>识别 2、基于局部统计的新词识别 3、报告非词典词的分词服务： 1、在internet上建立和建设project空间->版本控制服务、规范发布下载 2、寻求有兴趣的合作者，贡献到Paoding中 ------------------- >>>>做就要把它做到更加可用化
返回顶楼	回帖地址 0 0 请登录后投票

billgmh 等级: 初级会员性别: 文章: 44 积分: 52 来自: 广东广州	发表时间：2007-01-29 Qieqie 写道 TODO: 功能： 1、基于边界模板和局部统计的<姓+名>和单<名>识别 2、基于局部统计的新词识别 3、报告非词典词的分词服务： 1、在internet上建立和建设project空间->版本控制服务、规范发布下载 2、寻求有兴趣的合作者，贡献到Paoding中 ------------------- >>>>做就要把它做到更加可用化基于局部统计的新词识别到目前为止我也尝试了两种方法，效果还算可以吧。而姓名识别是我目前正在研究的一个方向。假如楼主不嫌弃的话，看看我们有没有合作的机会，
返回顶楼	回帖地址 0 0 请登录后投票

strongkill 等级: 初级会员文章: 51 积分: 76 来自: 广东	发表时间：2007-01-29 Qieqie 写道 TODO: 功能： 1、基于边界模板和局部统计的<姓+名>和单<名>识别 2、基于局部统计的新词识别 3、报告非词典词的分词服务： 1、在internet上建立和建设project空间->版本控制服务、规范发布下载 2、寻求有兴趣的合作者，贡献到Paoding中 ------------------- >>>>做就要把它做到更加可用化支持..有需要本人可以提供svn服务器.
返回顶楼	回帖地址 0 0 请登录后投票

linliangyi2007 等级: 性别: 文章: 992 积分: 1266 来自: 福州	发表时间：2007-01-29 今天终于细细的看了Qieqie兄的Blog啦，呵呵，人气不错呀！这里顺便回答一下billgmh 关于词典搜索的问题 [我也正在就中文分词方向进行研究，也是使用首字hash＋折半查找的方法构造词典的，是我尝试过分词效率最高的一种词典实现方式，但是最近我收集到一份论文《基于双数组Trie树的词典查询算法》，发现效率可能比基于双数组Trie树的词典查询算法还要高（利用有穷自动机的原理与Trie树的易扩展性），不知楼主有没有尝试过这种方法呢？] 从理论上说hash算法的O(1)复杂性确实是最低的，效率也是最高的。billgmh采用了双hash构造词典，为什么是两个呢？能不能说的细一些。我本人采用了全Hash树模型建立过同样的词典，效率的确跟Qieqie兄阐述的那样非常的高，新版IKAnalyzer的解析速度将近18w汉字/秒（P4 1.6G单核 512M WinXp Sun JDK6.0环境），这里还要感谢Qieqie兄在很多性能优化方面提出的宝贵建议。还有billgmh提到了“有穷自动机的原理”这令我非常感兴趣，我先前做过的IKAnalyzer这是利用该理论来进行中文分词的，billgmh可以在google上搜索下载试用一下分词效果（1.4版的效率很不高哦，呵呵）。希望billgmh能对这个方面进行更多阐述，大家来讨论一下！
返回顶楼	回帖地址 0 0 请登录后投票

imjl 等级: 性别: 文章: 678 积分: 166 来自: 上海	发表时间：2007-01-29 Qieqie 写道分词应该还是有很多用途，不仅仅局限在大门户搜索。比如：自动问答/自助服务应用 - 自动客服机器人、天气资讯递送(IM或mail的形式)、知识系统本地化网站的应用 - 地图、地名搜索、电子商务搜索应用 - 商品名、描述准确搜索，以及识别输入项的属性(即，能够根据用户的输入判断是搜索什么属性，比如 “白色”指颜色，“二手”指折旧方面的...) 嫌疑信息识别和过滤 - 手机(骗子)短信、论坛帖子 - (短信量大，分词必须快速) ... 不同的系统，搜索重点不一样，为了提高准确度，除了使用良好的算法，一般会订制自己的一套词汇表。简单的单字分词或二元分词，准确率是很差地。《长尾理论》这本书讲了一个新的经济形式(丰饶经济学)，世界存在着一个很长的需求尾巴，这些需求量虽然很低，但是总是有的，如果将这些需求总加起来，却是一个不可忽略的力量。分词也在各种各样的应用中存在，他虽然没有像大门户网站那样显得突出，但很多需求都需要用到你举的几个例子还是在全文检索范畴，，，我倒是同意你这句 "不同的系统，搜索重点不一样，为了提高准确度，除了使用良好的算法，一般会订制自己的一套词汇表。简单的单字分词或二元分词，准确率是很差地。" 呵呵，没想到你也读<长尾理论>。。。
返回顶楼	回帖地址 0 0 请登录后投票

« 上一页 1 2 3 4 5 6 7 下一页 »

论坛首页 → Java企业应用版

跳转论坛: