Rocchio算法

blackproof

浏览: 1381250 次
性别:
来自: 北京

最近访客更多访客>>

lingxiajiudu

youtao531

mengjingwo

xuycan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

机器学习

Rocchio 机器学习

Rocchio算法是IR中通过查询的初始匹配文档对原始查询进行修改以优化查询的方法。Rocchio 算法是相关反馈实现中的一个经典算法，它提供了一种将相关反馈信息融到向量空间模型的方法。基本理论：假定我们要找一个最优查询向量q ，它与相关文档之间的相似度最大且同时又和不相关文档之间的相似度最小。若Cr表示相关文档集，Cnr表示不相关文档集，那么我们希望找到的最优的q 是：

sim 函数用于计算相似度。采用余弦相似度计算时，能够将相关文档与不相关文档区分开的最优查询向量为：

这就是说，最优的查询向量等于相关文档的质心向量和不相关文档的质心向量的差。然而，这个发现并没有什么意义，因为检索本来的目的就是要找相关文档，而所有的相关文档集事先却是未知的。

Rocchio 算法。该算法（Rocchio，1971）是20 世纪70 年代左右在Salton 的SMART 系统中引入并广泛流传的一种相关反馈算法。在一个真实的信息检索场景中，假定我们有一个用户查询，并知道部分相关文档和不相关文档的信息，则可以通过如下公式得到修改后的查询向量q：

其中， q 是原始的查询向量，Dr 和Dnr 是已知的相关和不相关文档集合。α、β 及γ 是上述三者的权重。这些权重能够控制判定结果和原始查询向量之间的平衡：如果存在大量已判断的文档，那么会给β 及γ 赋予较高的权重。修改后的新查询从q0 开始，向着相关文档的质心向量靠近了一段距离，而同时又与不相关文档的质心向量远离了一段距离。新查询可以采用常规的向量空间模型进行检索。通过减去不相关文档的向量，我们很容易保留向量空间的正值分量。在Rocchio 算法中，文档向量中的权重分量如果为负值，那么该分量将会被忽略，也就是说，此时会将该分量权重设为0。下图给出了应用相关反馈技术的效果示意图。

相关反馈可以同时提高召回率和正确率。然而，实际表明该技术在一些重召回率的场景下对于提高召回率非常有用。这其中的部分原因在于它对查询进行了扩展，另一个原因是应用的场景所带来的结果：在期望高召回率的情况下，可以预计用户可能会花更多时间来浏览结果并进行反复搜索。正反馈往往比负反馈更有价值，因此在很多IR系统中，会将参数设置成γ < β。一个合理的取值是α = 1、β = 0.75 及γ = 0.15。实际上，很多系统，都只允许进行正反馈，即相当于设置γ = 0。还有一种做法是，只取检索系统返回结果中排名最高的标记为不相关的文档进行负反馈，此时，公式中的|Dnr| = 1。尽管上述相关反馈方法存在各种变形，并且很多比较实验也没有取得一致性的结论，但是一些研究却认为一种称为Ide dec-hi 的公式最有效或至少在性能上表现最稳定。Ide dec-hi 的公式如下：

转http://blog.csdn.net/sulliy/article/details/6670980

分享到：

推荐系统123 | python读写xls

2014-09-16 20:57
浏览 1509
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Rocchio算法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Rocchio算法

评论

发表评论

相关推荐

推荐系统概述转

推荐系统123

基于hadoop的推荐算法-mahout版

机器学习方法概述

机器学习 线性回归

C4.5算法 转

梯度上升算法实现

转 朴素贝叶斯算法

机器学习 四 基本方法一

机器学习 三 输出

机器学习 二 输入

机器学习 一 基本概念

最近访客更多访客>>

机器学习线性回归

C4.5算法转

转朴素贝叶斯算法

机器学习四基本方法一

机器学习三输出

机器学习二输入

机器学习一基本概念