- 浏览: 800181 次
- 性别:
- 来自: 武汉
文章分类
最新评论
-
107x:
不错,谢谢!
log4j.properties配置详解 -
gzklyzf:
为啥我解析的PDF文档没有作者、文章题目等信息啊,下面是我的代 ...
Apache Lucene Tika 文件内容提取工具 -
mervyn1024:
解压密码是啥
ictclas4j调整 -
百卉含英:
如果我的文件输出路径是这个log4j.appender.Fil ...
log4j.properties配置详解 -
lxhxklyy:
mark……
log4j.properties配置详解
1 什么是BM25
摘录一段wiki
BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a document (e.g., their relative proximity). It is not a single function, but actually a whole family of scoring functions, with slightly different components and parameters. One of the most prominent instantiations of the function is as follows.
文档搜索中,并没有例如pr(google)这样的权威的评分作为排序的依据,所以有各种各样评分标准来评价我们搜索的相关度,而BM25就是其中比较著名的一种。
2 怎么用BM25
到底BM25评分还是个数学方法,我们先来看看它的数学表达式
大概解释一下公式的意思
对于公式1
score(D,Q):就是我们所要计算的评分,即为【给定搜索内容】Q在【给定文档】D中的相关程度,分数越高表示相关度越高。
q:【给定搜索内容】Q中的语素,英文的话就是单词,中文的话需要先进行简单的切词操作。
f(qi,D):在【给定文档】D中,某一个语素qi出现的频率。
|D|:【给定文档】D长度。
avgdl:索引中所有文档长度。
另外两个参数K1和b用来调整精准度,一般情况下我们取K1=2,b=0.75。
公式2是用来计算公式1中IDF(qi)的值
N:索引中文档的总数目。
n(qi):索引中包含语素qi的文档的总书目。
至此,公式所有变量、常量意义明确,我们就可以开始计算了。
--------------------------------------------------------------
由于公式并不难以理解,纯计算部分coder的事就没必要列出来了,这里我想说的是如何把这套评分体系和lucene结合起来。
众所皆知,lucene有score的功能,详见以下链接
http://lucene.apache.org/java/2_4_0/scoring.html
就不细说了。
现在我们做一个简单的demo,加入附件中的jar包
- public static void main(String[] args) throws ParseException, IOException {
- //建立索引
- IndexSearcher searcher = new IndexSearcher("/doc");
- //计算平均长度avgdl
- BM25Parameters.load("avgLengthPath");
- BM25BooleanQuery query = new BM25BooleanQuery("This is my Query",
- "Search-Field", new MMAnalyzer());
- //开始进行检索
- Hits hits = searcher.search(query);
- //输出结果
- for (int i = 0; i < 10; i++) {
- System.out.println(hits.id(i) + ":" + hits.score(i));
- }
- }
public static void main(String[] args) throws ParseException, IOException {
//建立索引
IndexSearcher searcher = new IndexSearcher("/doc");
//计算平均长度avgdl
BM25Parameters.load("avgLengthPath");
BM25BooleanQuery query = new BM25BooleanQuery("This is my Query",
"Search-Field", new MMAnalyzer());
//开始进行检索
Hits hits = searcher.search(query);
//输出结果
for (int i = 0; i < 10; i++) {
System.out.println(hits.id(i) + ":" + hits.score(i));
}
}
我们即可计算BM25,模仿baidu硬盘搜索做一个简单的玩意也可以很快上手了。
补充:除了lucene以外,mg4j也可以进行bm25的计算,甚至于比lucene更优秀的在于利用mg4j可以直接计算bm25。不过在中文分词方面,利用mg4j就远没有lucene方便,所以略去不谈。
3 BM25怎么样
简单分析一下bm25的算法我们可以知道这套评分方法还是基于在文档中出现频率,也就是说给定查询语句中的词素至少要有一个在给定文档中出现,不然计算结果会为0。
而由不愿意透露身份的王博士所介绍的基于以下两个公式的转移概率模型的评分则不需要有如此硬性的要求,譬如你在搜索“中国首都”时,会得到一篇含有“北京”字样的文档。
我们衡量一套搜索方法的原则无外乎准确度和量:
基于转移概率的搜索方法虽然得到的量会更多一些,的那是我们认为准确度会有所不足,并不是每组高转移概率的词汇对都会如“中国首都”和“北京”这样同义,可能会有很多无意义的转移词汇对或者根本不相关的词汇对,这将大大降低搜索的效率。
基于BM25的搜索方法在准确度上会更胜一筹,它的结果至少保证了是含有【给定搜索语句】的语素,事实上大部分实用的全文搜索也保证了这一原则。
由此对比,我们认为虽然基于转移概率模型的评分在理论上是一套更好的评分方法,但是实际操作用问题很多,在没有一个相对而言准确且大量的转移词汇对数据库前,基于BM25评分的搜索算法应该是更实用的。
评论
发表评论
-
关于调整华中科技大学期刊分类办法征求意见的通知
2012-02-21 11:06 8388关于调整华中科技大学期刊分类办法征求意见的通知 ... -
半监督分类点滴
2011-10-14 10:55 1434半监督分类点滴 如果仅使用有标记样本 ... -
参考文献
2011-04-10 23:22 1021专著(M:Monograph);论文集(C:Collected ... -
Web-based Services and Information Systems
2011-04-08 23:21 1226[Dbworld] Web-based Services an ... -
词序列核函数
2011-03-21 17:23 1619词序列核函数 Case 1: ACB & ... -
Standard treebank POS tagger
2011-03-12 14:48 1439Standard treebank POS tagger ... -
Rand指数
2010-12-17 15:58 2357Rand指数为Milligan和Cooper[]提 ... -
关于期刊
2010-12-03 12:06 1553Web Mining相关国际会议期刊及影响因子列表(欢迎 ... -
有关国际会议3
2010-12-03 12:00 26583对AI领域的会议的评点The First Class:今天先 ... -
有关国际会议2
2010-12-03 11:56 1484AREA: Artificial Intelligence a ... -
有关国际会议1
2010-12-03 11:53 16171几个数据库/数据挖掘会议 iamlucky SIGMOD ... -
CCF公布推荐的国际学术会议和期刊目录
2010-10-12 14:47 1781CCF公布推荐的国际学术会议和期刊目录 经过3年多的工 ... -
curriculum vitae
2010-06-12 17:46 1441Benxiong Huang received t ... -
期刊列表
2010-04-22 14:29 1236World Wide Web 1386-145X ... -
Minor revision required \- IEEE Intelligent Systems, ISSI\-2009\-09\-0121\.R1
2010-03-26 21:06 2605旧历年去年腊月二十九发出的信件,到三十晚上猛然发现的。 滑行 ... -
从SCI他引看研究论文的质量----再从这里谈开去zz
2010-03-26 20:59 2492从SCI他引看研究论文的质量----再从这里谈开去zz ... -
ISI公布2008年度SCI收录期刊影响因子
2010-03-08 21:37 2726ISI公布2008年度SCI收录期刊影响因子 2 ... -
IEEE Intelligent Systems, ISSI\-2009\-09\-0121: Decision: major revision
2009-12-23 15:29 1845这篇早该发出来,以识之。 go on working…… ... -
从语言模型“反推”的角度看查询扩展
2009-12-04 21:43 14196.2从语言模型“反推”的角度看查询扩展 查询扩展就是根据实 ... -
语言模型
2009-11-18 21:12 1868恩,首先说语言模型是 ...
相关推荐
基于JAVA开发的BM25排序模型,文件格式为xml。压缩包中含有示例文件xml。
介绍从TFIDF到BM25的优秀PPT
es的排序准则的相关度,根据搜索 ...TF/IDF会随着关键词出现的次数得分逐渐增高,BM25随着关键词出现的次数,得分会有一个极限(用两个参数可以进行调节 k1[默认1.2],b[默认0.75])。目前ES5.0以后版本默认使用BM25。
lucene可使用的BM25模型
BM25算法浅析
用lucene 4.7.1做的一个Lucene构建索引、进行查询,对比默认的相似度计算与BM25相似度计算输出结果的示例。内容不多,供新手参考
文档搜索中,并没有例如pr(google)这样的权威的评分作为排序的依据,所以有各种各样评分标准来评价我们搜索的相关度,而BM25就是其中比较著名的一种。
BM25算法的详细资料,需要的可以参考,比较完整的实现过程。
BM25算法原理参见我的博文:[【NLP】非监督文本匹配算法——BM25] 测试程序: ```python bm25 = BM25() result = bm25.cal_similarity("自然语言处理并不是一般地研究自然语言") for line, score in result: ...
【短文本相似度】传统方法BM25解决短文本相似度问题.pdf
Algorithm-rank_bm25.zip,BM25算法变体的集合,算法是为计算机程序高效、彻底地完成任务而创建的一组详细的准则。
到目前为止,已实现的算法是: 霍加api BM25 BM25L BM25 + BM25-Adpt BM25T 这些算法均取自,它对每种方法进行了很好的概述,并对它们进行了基准测试。 一个不错的选择是,他们比较了不同类型的预处理,例如词干...
BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法
基于BM25算法的主题模型优化算法,李宇坤,陈光,本文介绍了一种表示和检测微博热点话题的新方法,该方法发现的话题具有更好的可读性和独立性。不同于传统热点话题发现算法,本文��
算法学习:BM25算法浅析
2020年陈竹敏老师教授的信息检索技术的课设解决方案,语言为python,在提供的baseline基础上进行了一定的修改,包括文档预处理(停用词去除,大小写转换)等处理,MMR可达0.5。
1 TF-IDF TF-IDF是英文Term Frequency–Inverse Document Frequency的缩写,中文叫做词频-逆文档频率。 一个用户问题与一个标准问题的TF-IDF相似度,是将用户问题中每一词与标准问题计算得到的TF-IDF值求和。...
适用于SQLite3的Okapi BM25 该SQLite扩展创建了一个名为okapi_bm25SQL函数,该函数返回以获得全文搜索的结果。 Okapi BM25是一种现代化的排名功能,可根据每个结果与搜索查询的相关性来计算得分。 此扩展仅适用于上...
python-bm25 python的BM25加权方案的实现
BM25__MapReduce 这是BM25框架的代码: 1.Hadoop Map 输入是zipfile 输出是文本文件2.Override FileInputFormat: zipFileInputFile, eachItem 使用三个mapper和ene reducer