`

谈谈BM25评分

阅读更多

1 什么是BM25

    摘录一段wiki

 

BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a document (e.g., their relative proximity). It is not a single function, but actually a whole family of scoring functions, with slightly different components and parameters. One of the most prominent instantiations of the function is as follows.

 

    文档搜索中,并没有例如prgoogle)这样的权威的评分作为排序的依据,所以有各种各样评分标准来评价我们搜索的相关度,而BM25就是其中比较著名的一种。

 

2 怎么用BM25

    到底BM25评分还是个数学方法,我们先来看看它的数学表达式

 

 

 

 

 

大概解释一下公式的意思
对于公式1
score
DQ):就是我们所要计算的评分,即为【给定搜索内容】Q在【给定文档】D中的相关程度,分数越高表示相关度越高。
q
:【给定搜索内容】Q中的语素,英文的话就是单词,中文的话需要先进行简单的切词操作。
f
qi,D):在【给定文档】D中,某一个语素qi出现的频率。
|D|
:【给定文档】D长度。
avgdl:
索引中所有文档长度。
另外两个参数K1b用来调整精准度,一般情况下我们取K1=2b=0.75

公式2是用来计算公式1IDFqi)的值
N
:索引中文档的总数目。
n
qi):索引中包含语素qi的文档的总书目。

至此,公式所有变量、常量意义明确,我们就可以开始计算了。
--------------------------------------------------------------
由于公式并不难以理解,纯计算部分coder的事就没必要列出来了,这里我想说的是如何把这套评分体系和lucene结合起来。

众所皆知,lucenescore的功能,详见以下链接
http://lucene.apache.org/java/2_4_0/scoring.html
就不细说了。

现在我们做一个简单的demo,加入附件中的jar

Java代码

  1. public static void main(String[] args) throws ParseException, IOException {   
  2.     //建立索引   
  3.     IndexSearcher searcher = new IndexSearcher("/doc");   
  4.     //计算平均长度avgdl   
  5.     BM25Parameters.load("avgLengthPath");   
  6.     BM25BooleanQuery query = new BM25BooleanQuery("This is my Query",   
  7.             "Search-Field", new MMAnalyzer());   
  8.     //开始进行检索   
  9.     Hits hits = searcher.search(query);   
  10.     //输出结果   
  11.     for (int i = 0; i < 10; i++) {   
  12.         System.out.println(hits.id(i) + ":" + hits.score(i));   
  13.     }   
  14. }  

  public static void main(String[] args) throws ParseException, IOException {

   //建立索引

   IndexSearcher searcher = new IndexSearcher("/doc");

   //计算平均长度avgdl

   BM25Parameters.load("avgLengthPath");

   BM25BooleanQuery query = new BM25BooleanQuery("This is my Query",

      "Search-Field", new MMAnalyzer());

   //开始进行检索

   Hits hits = searcher.search(query);

   //输出结果

   for (int i = 0; i < 10; i++) {

     System.out.println(hits.id(i) + ":" + hits.score(i));

   }

  }


我们即可计算BM25,模仿baidu硬盘搜索做一个简单的玩意也可以很快上手了。

补充:除了lucene以外,mg4j也可以进行bm25的计算,甚至于比lucene更优秀的在于利用mg4j可以直接计算bm25。不过在中文分词方面,利用mg4j就远没有lucene方便,所以略去不谈。


3 BM25
怎么样
简单分析一下bm25的算法我们可以知道这套评分方法还是基于在文档中出现频率,也就是说给定查询语句中的词素至少要有一个在给定文档中出现,不然计算结果会为0

而由不愿意透露身份的王博士所介绍的基于以下两个公式的转移概率模型的评分则不需要有如此硬性的要求,譬如你在搜索中国首都时,会得到一篇含有北京字样的文档。



 

 


我们衡量一套搜索方法的原则无外乎准确度和量:
基于转移概率的搜索方法虽然得到的量会更多一些,的那是我们认为准确度会有所不足,并不是每组高转移概率的词汇对都会如中国首都北京这样同义,可能会有很多无意义的转移词汇对或者根本不相关的词汇对,这将大大降低搜索的效率。

基于BM25的搜索方法在准确度上会更胜一筹,它的结果至少保证了是含有【给定搜索语句】的语素,事实上大部分实用的全文搜索也保证了这一原则。

由此对比,我们认为虽然基于转移概率模型的评分在理论上是一套更好的评分方法,但是实际操作用问题很多,在没有一个相对而言准确且大量的转移词汇对数据库前,基于BM25评分的搜索算法应该是更实用的。

 

  • 大小: 2.9 KB
  • 大小: 1.5 KB
  • 大小: 5.6 KB
  • 大小: 6.7 KB
分享到:
评论
1 楼 zexunlee 2009-08-14  
此算法已经被Chengxiang Zhai的Risk Minimization Framework超越了。BM25是Robertson老先生的独门绝技,我一大学同学跟老Rob做1.5年博后,现在自己也是博导了,坐飞机似地,羡慕之极。下次我要跟随Zhai,死缠烂打也要跟着Zhai做访问学者(博后没指望了,已经毕业4年了,过了期限)。

相关推荐

    新建文本文档.txt

    新建文本文档

    开源Git gui工具Fork

    开源Git gui工具Fork,CSDN能找到教程,但是资料不多,推荐用Tortoise

    yolov5在华为昇腾atlas上加速推理

    该资源为yolov5在华为昇腾atlas上使用Ascend310芯片加速推理,属于c++后端开发,适合C++开发者在华为昇腾盒子上移植深度学习算法的博主们。 资源是demo形式,包含完整的一套代码,还有转好的离线模型文件和跑出的测试结果图片。

    C++ 实现贪吃蛇小游戏

    C++贪吃蛇小游戏简介 内容概要 C++贪吃蛇小游戏是一款经典的2D游戏,它利用C++编程语言结合基本的图形库(如NCurses库或SDL库)实现。游戏的核心玩法包括控制贪吃蛇在封闭的场地内移动,通过吃掉随机出现的食物来增长身体长度,同时避免碰到场地边界或自己的身体,否则游戏结束。游戏界面简洁直观,通过键盘控制贪吃蛇的方向,提供流畅的游戏体验。 适用人群 C++贪吃蛇小游戏适用于广泛的人群,特别是: C++编程学习者:对于正在学习C++编程的学生或爱好者,这款小游戏是一个很好的实践项目。通过实现游戏,可以加深对C++语法、数据结构、面向对象编程等知识点的理解和应用。 使用场景及目标 C++贪吃蛇小游戏可以在以下场景中使用,并达到以下目标: 编程教学实践:在编程教学课堂上,教师可以使用该游戏作为案例,引导学生完成项目的开发。通过实践,学生可以更好地掌握C++编程技能,并将理论知识应用于实际项目中。 个人项目实践:对于个人学习者,实现贪吃蛇小游戏可以作为自我挑战和实践的机会。通过独立完成项目,可以提升自己的编程能力和解决问题的能力。

    ec616DataSheet

    移芯NBIOT 芯片,NB芯片,水表电表芯片,烟感 地磁芯片 超弱信号环境业务能力。

    预测结果.xlsx

    预测结果

    简易java订销管理系统-javainfo

    简易java订销管理系统_javainfo,包含全量功能源码,及相关文档说明,供大家学习使用!!!

    Java开发案例-springboot-52-POI导出Excel-源代码+文档.rar

    Java开发案例-springboot-52-POI导出Excel-源代码+文档.rar Java开发案例-springboot-52-POI导出Excel-源代码+文档.rar Java开发案例-springboot-52-POI导出Excel-源代码+文档.rar Java开发案例-springboot-52-POI导出Excel-源代码+文档.rar Java开发案例-springboot-52-POI导出Excel-源代码+文档.rar Java开发案例-springboot-52-POI导出Excel-源代码+文档.rar

    附件1预测.xlsx

    附件1预测

    基于java的习题检索系统源码.zip

    提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

    Java开发案例-springboot-31-实现快递物流查询(快递鸟)-源代码+文档.rar

    Java开发案例-springboot-31-实现快递物流查询(快递鸟)-源代码+文档.rar Java开发案例-springboot-31-实现快递物流查询(快递鸟)-源代码+文档.rar Java开发案例-springboot-31-实现快递物流查询(快递鸟)-源代码+文档.rar Java开发案例-springboot-31-实现快递物流查询(快递鸟)-源代码+文档.rar Java开发案例-springboot-31-实现快递物流查询(快递鸟)-源代码+文档.rar Java开发案例-springboot-31-实现快递物流查询(快递鸟)-源代码+文档.rar Java开发案例-springboot-31-实现快递物流查询(快递鸟)-源代码+文档.rar Java开发案例-springboot-31-实现快递物流查询(快递鸟)-源代码+文档.rar

    测试手柄以及其他外设在安卓模拟器或者安卓手机上的操作按键以及使用的摇杆向量

    测试手柄以及其他外设在安卓模拟器或者安卓手机上的操作按键以及使用的摇杆向量,通过按键以及摇杆来识别手柄或者其他外设的操作按键以及摇杆等。

    第一篇20240528_00.png

    第一篇20240528_00.png

    基于Java的实用的音乐软件微信小程序的设计与开发源码.zip

    提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

    使用SAHI模块完成超分辨率以及小目标检测是应用示例python源码+项目说明

    使用SAHI模块完成超分辨率以及小目标检测是应用示例python源码+项目说明个人经导师指导并认可通过的高分设计项目,评审分98分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 使用SAHI模块完成超分辨率以及小目标检测是应用示例python源码+项目说明个人经导师指导并认可通过的高分设计项目,评审分98分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。使用SAHI模块完成超分辨率以及小目标检测是应用

    第二次操作系统作业等9个文件.zip

    第二次操作系统作业等9个文件.zip

    C++ 控制台版本坦克大战游戏

    C++ 控制台版坦克大战游戏简介 内容概要 C++ 控制台版坦克大战游戏是一款基于C++编程语言开发的经典射击游戏。 通过键盘控制坦克移动攻击,躲避敌方坦克的攻击,同时消灭它们以完成关卡任务,支持地图编辑。 适用人群 这款游戏适用于对C++编程和游戏开发感兴趣的广大学生、编程爱好者以及初学者。通过参与游戏开发,他们可以深入了解C++编程语言的应用,学习游戏逻辑设计、用户输入处理。此外,对于想要通过实践提升编程能力和算法思维的人群,这款游戏也是一个不错的选择。 使用场景及目标 C++ 控制台版坦克大战游戏可以在多种场景下使用,并达到以下目标: 学习与实践场景:在编程学习或实践课程中,教师可以利用这款游戏作为教学案例,引导学生逐步完成游戏的开发。学生在开发过程中将学习并应用C++的基础知识,包括变量、数据类型、循环、条件语句等,同时培养解决问题的能力。

    程序设计java.rar

    程序设计java.rar

    ipywidgets-7.7.0.tar.gz

    Python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库,如NumPy、Pandas和Requests,极大地丰富了Python的应用领域,从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,Matplotlib和Seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

    Python国外某书店顾客购书金额数据分析 图书单词词频 地理坐标分析

    Python国外某书店顾客购书金额数据分析 图书单词词频 地理坐标分析

Global site tag (gtag.js) - Google Analytics