hyperestraier是在前文已经介绍过一的一个开源搜索引擎程序。
分词:采用N-gram,char_category等来分词,良好地支持中文等东亚文字。
分词程序在:estraier.c中
est_break_text
est_break_text_perfng
est_break_text_chrcat
等分法。
相关的函数有
276 static int est_char_category(int c);
277 static int est_char_category_perfng(int c);
278 static int est_char_category_chrcat(int c);
等
分词默认采用est_break_text
当创建数据库时采用 estcmd create dbname -apn 时,采用est_break_text_perfng来分词
当创建数据库时是用 estcmd create dbname -acc 时,用est_break_text_chrcat来分词
采用est_break_text来分词时,结果这样样的:
今天 天突 突然 然想 想起 起霍 霍炬 炬曾 曾告 告诉 诉过 过我 我的 的一 一个 个日 日本 本人 人开 开发 发的 的全 全文 文检 检索 索引 引擎 擎, , 于是 是找 找他 他问 问了 了,
是双字连着的分词法,这样会占用多至少一倍的检索空间,同时精确度差一点(但是精确度比按字分词好一点)。
分享到:
相关推荐
1.Hyper Estraier是一个用C语言开发的全文检索引擎,他是由一位日本人开发的.工程注册在sourceforge.net(http://hyperestraier.sourceforge.net). 2.Hyper的特性: 高速度,高稳定性,高可扩展性…(这可都是有原因的,...
1.Hyper Estraier是一个用C语言开发的全文检索引擎,他是由一位曰本人开发的.工程注册在sourceforge.net(http://hyperestraier.sourceforge.net). 2.Hyper的特性: 高速度,高稳定性,高可扩展性…(这可都是有原因的,...
内容索引:VC/C++源码,其它分类,HyperEstraier,全文检索 Hyper Estraier是一套基于C的全文检索引擎,这是它的C源代码,很散、很综合,需要有一定基础的人阅读,还牵扯到部分JAVA源码以及RUBY的相关代码,本程序曾是...
网上下的不错的代码,应该对很多人有帮助价值.
这个一个基于estraier的搜索引擎,包括对txt pdf word进行解析。建立索引执行索引
Estraier是用于网站,本地文件系统,邮箱等的个人全文搜索系统。 Estraier具有灵活的界面,它可以使用外部插件处理多语言文档和各种文件格式。
Remora为iPhone和iTouch提供了本地文档搜索功能。 该项目使用开源搜索引擎Hyper Estraier以及Yahoo!提供的实时搜索功能。