`

谈谈BM25评分

阅读更多

1 什么是BM25

    摘录一段wiki

 

BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a document (e.g., their relative proximity). It is not a single function, but actually a whole family of scoring functions, with slightly different components and parameters. One of the most prominent instantiations of the function is as follows.

 

    文档搜索中,并没有例如prgoogle)这样的权威的评分作为排序的依据,所以有各种各样评分标准来评价我们搜索的相关度,而BM25就是其中比较著名的一种。

 

2 怎么用BM25

    到底BM25评分还是个数学方法,我们先来看看它的数学表达式

 

 

 

 

 

大概解释一下公式的意思
对于公式1
score
DQ):就是我们所要计算的评分,即为【给定搜索内容】Q在【给定文档】D中的相关程度,分数越高表示相关度越高。
q
:【给定搜索内容】Q中的语素,英文的话就是单词,中文的话需要先进行简单的切词操作。
f
qi,D):在【给定文档】D中,某一个语素qi出现的频率。
|D|
:【给定文档】D长度。
avgdl:
索引中所有文档长度。
另外两个参数K1b用来调整精准度,一般情况下我们取K1=2b=0.75

公式2是用来计算公式1IDFqi)的值
N
:索引中文档的总数目。
n
qi):索引中包含语素qi的文档的总书目。

至此,公式所有变量、常量意义明确,我们就可以开始计算了。
--------------------------------------------------------------
由于公式并不难以理解,纯计算部分coder的事就没必要列出来了,这里我想说的是如何把这套评分体系和lucene结合起来。

众所皆知,lucenescore的功能,详见以下链接
http://lucene.apache.org/java/2_4_0/scoring.html
就不细说了。

现在我们做一个简单的demo,加入附件中的jar

Java代码

  1. public static void main(String[] args) throws ParseException, IOException {   
  2.     //建立索引   
  3.     IndexSearcher searcher = new IndexSearcher("/doc");   
  4.     //计算平均长度avgdl   
  5.     BM25Parameters.load("avgLengthPath");   
  6.     BM25BooleanQuery query = new BM25BooleanQuery("This is my Query",   
  7.             "Search-Field", new MMAnalyzer());   
  8.     //开始进行检索   
  9.     Hits hits = searcher.search(query);   
  10.     //输出结果   
  11.     for (int i = 0; i < 10; i++) {   
  12.         System.out.println(hits.id(i) + ":" + hits.score(i));   
  13.     }   
  14. }  

  public static void main(String[] args) throws ParseException, IOException {

   //建立索引

   IndexSearcher searcher = new IndexSearcher("/doc");

   //计算平均长度avgdl

   BM25Parameters.load("avgLengthPath");

   BM25BooleanQuery query = new BM25BooleanQuery("This is my Query",

      "Search-Field", new MMAnalyzer());

   //开始进行检索

   Hits hits = searcher.search(query);

   //输出结果

   for (int i = 0; i < 10; i++) {

     System.out.println(hits.id(i) + ":" + hits.score(i));

   }

  }


我们即可计算BM25,模仿baidu硬盘搜索做一个简单的玩意也可以很快上手了。

补充:除了lucene以外,mg4j也可以进行bm25的计算,甚至于比lucene更优秀的在于利用mg4j可以直接计算bm25。不过在中文分词方面,利用mg4j就远没有lucene方便,所以略去不谈。


3 BM25
怎么样
简单分析一下bm25的算法我们可以知道这套评分方法还是基于在文档中出现频率,也就是说给定查询语句中的词素至少要有一个在给定文档中出现,不然计算结果会为0

而由不愿意透露身份的王博士所介绍的基于以下两个公式的转移概率模型的评分则不需要有如此硬性的要求,譬如你在搜索中国首都时,会得到一篇含有北京字样的文档。



 

 


我们衡量一套搜索方法的原则无外乎准确度和量:
基于转移概率的搜索方法虽然得到的量会更多一些,的那是我们认为准确度会有所不足,并不是每组高转移概率的词汇对都会如中国首都北京这样同义,可能会有很多无意义的转移词汇对或者根本不相关的词汇对,这将大大降低搜索的效率。

基于BM25的搜索方法在准确度上会更胜一筹,它的结果至少保证了是含有【给定搜索语句】的语素,事实上大部分实用的全文搜索也保证了这一原则。

由此对比,我们认为虽然基于转移概率模型的评分在理论上是一套更好的评分方法,但是实际操作用问题很多,在没有一个相对而言准确且大量的转移词汇对数据库前,基于BM25评分的搜索算法应该是更实用的。

 

  • 大小: 2.9 KB
  • 大小: 1.5 KB
  • 大小: 5.6 KB
  • 大小: 6.7 KB
分享到:
评论
1 楼 zexunlee 2009-08-14  
此算法已经被Chengxiang Zhai的Risk Minimization Framework超越了。BM25是Robertson老先生的独门绝技,我一大学同学跟老Rob做1.5年博后,现在自己也是博导了,坐飞机似地,羡慕之极。下次我要跟随Zhai,死缠烂打也要跟着Zhai做访问学者(博后没指望了,已经毕业4年了,过了期限)。

相关推荐

    BM25的算法

    这个简单的示例展示了如何将BM25评分模型与Lucene的搜索功能相结合,以实现更精确的文档排序。 总结来说,BM25算法通过综合考虑词汇频率、文档长度和词汇普遍性来评估文档的相关性,为搜索引擎提供了一种有效的排序...

    JAVA版BM25排序模型

    4. **查询相关性**: BM25考虑了查询中每个词的重要性,通过对每个词的得分进行加权求和,得到文档的整体相关性评分。这种加权方法使得查询中的重要词能对文档的排名产生更大影响。 5. **XML文件格式**: 压缩包中的...

    Lucene示例 BM25相似度计算

    本文将深入探讨Lucene示例中的BM25相似度计算,旨在帮助初学者理解如何利用Lucene 4.7.1版本构建索引、执行查询,并比较默认的TF-IDF相似度与BM25相似度的区别。 首先,我们需要了解什么是Lucene。Lucene是一个由...

    介绍TFIDF与BM25的优秀PPT

    对于相同的查询词和文档,TF-IDF和BM25的计算结果不同,因为BM25引入了文档长度的调整,使得短文档中高频率的词能获得更高的权重,而长文档中的高频率词权重会被降低。 总结来说,TF-IDF和BM25都是用于评估文本中...

    BM25算法浅析

    BM25 算法是一种常用的搜索相关性评分算法,用于计算查询语句与文档之间的相关性得分。该算法的主要思想是将查询语句分解成多个语素,然后计算每个语素与文档之间的相关性得分,最后将所有语素的相关性得分进行加权...

    BM25算法介绍

    BM25的全称为Best Match 25,它改进了早期的TF-IDF模型,通过引入文档长度和查询项分布的调整因子,使得评分更加准确。 BM25的核心思想是基于词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, ...

    基于python的BM25文本匹配算法实现+源代码+文档说明

    BM25算法原理参见我的博文:[【NLP】非监督文本匹配算法——BM25] 测试程序: ```python bm25 = BM25() result = bm25.cal_similarity("自然语言处理并不是一般地研究自然语言") for line, score in result: ...

    elasticsearch IDF BM25函数图像

    es的排序准则的相关度,根据搜索 ...TF/IDF会随着关键词出现的次数得分逐渐增高,BM25随着关键词出现的次数,得分会有一个极限(用两个参数可以进行调节 k1[默认1.2],b[默认0.75])。目前ES5.0以后版本默认使用BM25。

    BERT为何无法彻底干掉BM25??.rar

    它基于词频和文档长度进行评分,简单高效,能够在大量文本中快速找到相关文档。尽管不涉及深度学习,但BM25在处理大规模文档集合时具有显著的优势,如低延迟和资源效率。 那么,为什么BERT未能完全取代BM25呢? 1....

    lucene BM25

    lucene可使用的BM25模型

    【短文本相似度】传统方法BM25解决短文本相似度问题.pdf

    由于引入了文档长度,BM25能够更好地解决长文档和短文档之间相似度评分不公正的问题。 文章还介绍了一个BM25类的实现,这个类能够计算用户问题与“标准问”库中问题的相似度。标准问库是一个问答系统中预先配置的、...

    基于BM25、BGE检索算法的检索增强生成RAG示例,支持OpenAI风格的大模型服务.zip

    本示例着重介绍了如何利用BM25和BGE检索算法来提升RAG模型的性能,并且支持OpenAI风格的大模型服务。现在,我们将深入探讨这些概念和技术。 首先,BM25(Best Match 25)是一种经典的倒排索引检索算法,用于从大量...

    Algorithm-rank_bm25.zip

    BM25算法是一种在信息检索领域广泛使用的全文检索排名算法,尤其在搜索引擎中扮演着重要角色。它基于词频逆文档频率(TF-IDF)的概念,并在此基础上进行优化,更准确地评估文档与查询的相关性。这个压缩包"Algorithm...

    山东大学 信息检索技术课设 BM25算法实现

    【标题】"山东大学 信息检索技术课设 BM25算法实现"涉及到的是一个基于Python的信息检索技术课程设计项目,其核心目标是实现BM25算法。BM25(Best Match 25)是一种在信息检索系统中广泛使用的文档排名算法,它能够...

    rank_bm25:BM25算法变体的集合

    到目前为止,已实现的算法是: 霍加api BM25 BM25L BM25 + BM25-Adpt BM25T 这些算法均取自,它对每种方法进行了很好的概述,并对它们进行了基准测试。 一个不错的选择是,他们比较了不同类型的预处理,例如词干...

    python-bm25:python的BM25加权方案的实现

    BM25(Best Match 25)是一种在信息检索领域广泛使用的文本排名算法,主要用于文档相关性评分。它是TF-IDF(词频-逆文档频率)的一种改进版本,能够更精确地评估文档与查询之间的相关性。在Python中,`python-bm25`...

    相关性算法BM25

    BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法

    bm25-ranking-php:使用bm25排序算法对reuter的文档进行排序

    4. **文档评分**:根据BM25公式对每个文档进行评分。 5. **排序**:根据评分对文档进行降序排序。 **`bm25-ranking-php`项目简介** `bm25-ranking-php-master`可能是一个包含以下组件的项目: 1. **代码库**:...

Global site tag (gtag.js) - Google Analytics