论坛首页 Java企业应用论坛

Lucene中文分词“庖丁解牛”

浏览 129693 次
该帖已经被评为精华帖
作者 正文
   发表时间:2007-01-26  
一定要顶啊。找这个很久了。
======================
偶网站的全文检索烦死了。=

感谢楼主分享啊
0 请登录后投票
   发表时间:2007-01-26  
试了一下,挺快的,支持楼主!
0 请登录后投票
   发表时间:2007-01-26  
imjl 写道
呵呵,,泼点冷水,,从应用角度来看

我觉得个人做lucene中文分词,没有什么商业价值.
因为中文分词牵涉的不单单是编程知识,还有自然语言等方面的知识.
YAHOO目前采用的中文分词还是购买的.
什么样的公司需要自己订做中文分词? 就lucene的两个analyzer足够用了。
有多少是做类似yahoo,baidu这样大的搜索引擎,,只有这样的公司需要中文分词,国内还有其他公司需要自己中文分词吗?我觉得都用不到。包括sina,163,sohu这样的门户。


从技术角度我支持你。



我們的公司不大.但也要做一套自己中文分詞系統.用於一個即時通信軟體的機械人功能.

當然.公司是不會去買的..

現在基本完成了.
0 请登录后投票
   发表时间:2007-01-27  
strongkill 写道


我們的公司不大.但也要做一套自己中文分詞系統.用於一個即時通信軟體的機械人功能.

當然.公司是不會去買的..

現在基本完成了.



昨天晚上写了回帖,没想到网络不好。

问几个问题:

1: 你们为什么要自己做分词

2: 你们目前做的有什么特点?

3: 哪儿可以try下吗?
0 请登录后投票
   发表时间:2007-01-27  
imjl 写道
呵呵,,泼点冷水,,从应用角度来看

我觉得个人做lucene中文分词,没有什么商业价值.
因为中文分词牵涉的不单单是编程知识,还有自然语言等方面的知识.
YAHOO目前采用的中文分词还是购买的.
什么样的公司需要自己订做中文分词? 就lucene的两个analyzer足够用了。
有多少是做类似yahoo,baidu这样大的搜索引擎,,只有这样的公司需要中文分词,国内还有其他公司需要自己中文分词吗?我觉得都用不到。包括sina,163,sohu这样的门户。


从技术角度我支持你。



分词应该还是有很多用途,不仅仅局限在大门户搜索。
比如:
  • 自动问答/自助服务应用 - 自动客服机器人、天气资讯递送(IM或mail的形式)、知识系统
  • 本地化网站的应用 - 地图、地名搜索、
  • 电子商务搜索应用 - 商品名、描述准确搜索,以及识别输入项的属性(即,能够根据用户的输入判断是搜索什么属性,比如 “白色”指颜色,“二手”指折旧方面的...)
  • 嫌疑信息识别和过滤 - 手机(骗子)短信、论坛帖子 - (短信量大,分词必须快速)
  • ...


不同的系统,搜索重点不一样,为了提高准确度,除了使用良好的算法,一般会订制自己的一套词汇表。简单的单字分词或二元分词,准确率是很差地。

《长尾理论》这本书讲了一个新的经济形式(丰饶经济学),世界存在着一个很长的需求尾巴,这些需求量虽然很低,但是总是有的,如果将这些需求总加起来,却是一个不可忽略的力量。

分词也在各种各样的应用中存在,他虽然没有像大门户网站那样显得突出,但很多需求都需要用到
0 请登录后投票
   发表时间:2007-01-28  
TODO:

功能:
1、基于边界模板和局部统计的<姓+名>和单<名>识别
2、基于局部统计的新词识别
3、报告非词典词的分词

服务:
1、在internet上建立和建设project空间->版本控制服务、规范发布下载
2、寻求有兴趣的合作者,贡献到Paoding中

-------------------
>>>>做就要把它做到更加可用化
0 请登录后投票
   发表时间:2007-01-29  
Qieqie 写道
TODO:

功能:
1、基于边界模板和局部统计的<姓+名>和单<名>识别
2、基于局部统计的新词识别
3、报告非词典词的分词

服务:
1、在internet上建立和建设project空间->版本控制服务、规范发布下载
2、寻求有兴趣的合作者,贡献到Paoding中

-------------------
>>>>做就要把它做到更加可用化


基于局部统计的新词识别到目前为止我也尝试了两种方法,效果还算可以吧。而姓名识别是我目前正在研究的一个方向。假如楼主不嫌弃的话,看看我们有没有合作的机会,
0 请登录后投票
   发表时间:2007-01-29  
Qieqie 写道
TODO:

功能:
1、基于边界模板和局部统计的<姓+名>和单<名>识别
2、基于局部统计的新词识别
3、报告非词典词的分词

服务:
1、在internet上建立和建设project空间->版本控制服务、规范发布下载
2、寻求有兴趣的合作者,贡献到Paoding中

-------------------
>>>>做就要把它做到更加可用化


支持..有需要本人可以提供svn服务器.
0 请登录后投票
   发表时间:2007-01-29  
今天终于细细的看了Qieqie兄的Blog啦,呵呵,人气不错呀!
这里顺便回答一下billgmh 关于词典搜索的问题

[我也正在就中文分词方向进行研究,也是使用首字hash+折半查找的方法构造词典的,是我尝试过分词效率最高的一种词典实现方式,但是最近我收集到一份论文《基于双数组Trie树的词典查询算法》,发现效率可能比基于双数组Trie树的词典查询算法还要高(利用有穷自动机的原理与Trie树的易扩展性),不知楼主有没有尝试过这种方法呢?]


从理论上说hash算法的O(1)复杂性确实是最低的,效率也是最高的。billgmh采用了双hash构造词典,为什么是两个呢?能不能说的细一些。
我本人采用了全Hash树模型建立过同样的词典,效率的确跟Qieqie兄阐述的那样非常的高,新版IKAnalyzer的解析速度将近18w汉字/秒(P4 1.6G单核 512M WinXp Sun JDK6.0环境),这里还要感谢Qieqie兄在很多性能优化方面提出的宝贵建议。

还有billgmh提到了“有穷自动机的原理”这令我非常感兴趣,我先前做过的IKAnalyzer这是利用该理论来进行中文分词的,billgmh可以在google上搜索下载试用一下分词效果(1.4版的效率很不高哦,呵呵)。希望billgmh能对这个方面进行更多阐述,大家来讨论一下!
0 请登录后投票
   发表时间:2007-01-29  
Qieqie 写道

分词应该还是有很多用途,不仅仅局限在大门户搜索。
比如:
  • 自动问答/自助服务应用 - 自动客服机器人、天气资讯递送(IM或mail的形式)、知识系统
  • 本地化网站的应用 - 地图、地名搜索、
  • 电子商务搜索应用 - 商品名、描述准确搜索,以及识别输入项的属性(即,能够根据用户的输入判断是搜索什么属性,比如 “白色”指颜色,“二手”指折旧方面的...)
  • 嫌疑信息识别和过滤 - 手机(骗子)短信、论坛帖子 - (短信量大,分词必须快速)
  • ...


不同的系统,搜索重点不一样,为了提高准确度,除了使用良好的算法,一般会订制自己的一套词汇表。简单的单字分词或二元分词,准确率是很差地。

《长尾理论》这本书讲了一个新的经济形式(丰饶经济学),世界存在着一个很长的需求尾巴,这些需求量虽然很低,但是总是有的,如果将这些需求总加起来,却是一个不可忽略的力量。

分词也在各种各样的应用中存在,他虽然没有像大门户网站那样显得突出,但很多需求都需要用到


你举的几个例子还是在全文检索范畴,,,我倒是同意你 这句 "不同的系统,搜索重点不一样,为了提高准确度,除了使用良好的算法,一般会订制自己的一套词汇表。简单的单字分词或二元分词,准确率是很差地。"

呵呵,没想到你也读<长尾理论>。。。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics