当你在互联网使用搜索的时候,关键词推荐可能是你经常使用到的一个辅助工具。如各种搜索引擎搜索框的下拉提示;google 结果页会有“XXX”的“相关搜索”;百度结果页也有提示一组相关搜索词。关键词推荐在文献上一般称为query suggestiong,query expansion,query rewrite,query recommendation。
而这些常见的关键词推荐是怎么得到的呢?我总结了一下,有以下几种方式。
第一:只考虑用户输入的关键词。这是指,推荐词只是用户输入词的字串的组合,不添加新的字符串。那么我们考虑的就是如何丢弃不重要的字或者词,或者对输入关键词做拼写纠错。
对于如何丢弃词,考虑怎么计算字或者词的重要性。考虑词的重要性可以通过TF-IDF,信息增益等方法来完成。还有一种方法是:通过crf的方法,通过序列标注的方法,标准两类词,第一类是重要的词,第二类是次要的词。标记出来之后,我们扔掉不次要的词,留下来的也就是重要词。
第二:只考虑用户输入序列的关键词。
这种方法可以把每个用户在一个时间段输入的n个词看成是一次“购物篮”数据,我们统计两周甚至几个月的用户输入,那么我们就可以得到非常多的购物篮数据。通过关联规则挖掘,我们就可以挖掘出相关词。但是这种方法明显的缺点就是没有考虑购物篮中的物品的顺序。当一个关键词和另外一个关键词很相似的时候,无法当成统一为一个对象。
例如“nokia 正品”和“正品 nokia”是两个不同的词,甚至字母大小写也会当成不同的购物篮中的对象。我们需要对这些对象做一下归一化。例如:query分词后按照ascii排序;通通转换为小写字母;把英文品牌通通转换为中文品牌等。
关联规则是一个比较简单方法。更加复杂一点,我们可以把所有的query当成node,当输入联系查询了query1和query2,那么这两个结点之间就有一条边。这些边上面的权重都可以用概率来表示,最终再用最短路径之类的方法来求解。
或者使用互信息的方法来计算两个query之间的相关性。sim(x,y)=P(x,y)/(p(x)*p(y)).
第三:考虑query-click log
把query-click item作为一个矩阵。query是矩阵的行,click iterm或者page(URL)作为列,矩阵中的元素是query(i)点击URL(j)的次数。通过这样的一个矩阵,我们就可以使用k-means聚类,或者对query两两之间通过url 的向量来计算相关性。
第四种:考虑一些规则
对应一些词难以推荐相关词,则通过不同的规则来完成不同的推荐。如地点替换/放大/缩小。属性的替换,如款式的替换等等。
长尾query的推荐方法:
长尾query的推荐是目前研究的一个热点,根据仔细的分析也有一些可以依据的知识。
分享到:
相关推荐
电信设备-一种MIMO信道空间衰落相关性计算方法及多天线系统.zip
相关性计算的EXCEL模板,填入相关数据即可进行自动计算,简单易用
网络游戏-基于联想网络的语义相关性计算方法.zip
无线通信天线相关性计算程序 采用Jack Salze1994年经典著作中的方法
MATLAB 数据点相关性计算MATLAB 数据点相关性计算
seo关键词相关性计算―烟台网亿互联网IT计算机专业资料PPT优秀资料.ppt
计算序列信号相关性; 时间序列得频域相关性运算;
扩频通信平衡Gold码选择时,进行相关性计算的Matlab程序,含自相关性和互相关性计算,用来验证选用的Gold码序列是否合理。
基于深度学习技术的词语相关性计算在电商广告关键词选词中的应用
包含的有变形前后图,可直接运行,运行后壳出现图形
基于深度学习技术的词语相关性计算在电商广告关键词选词中的应用.pdf
本资源利用两个信号的互相关算法计算其中一个信号的相位
针对开放域对话系统中存在的话题转移问题以及对话内容中存在大量短文本...提出一种相关性计算方法,并将该方法应用于话题分割,最终实现话题转移检测。通过与现有方法的对比实验,表明了提出的相关性计算方法的有效性。
针对标准相关性能量分析(CPA)在旁路攻击中存在的运算时间长、搜索空间大等问题,在分析了功耗泄露信息与数据相关性的基础上,结合标准相关性分析方法,提出一种基于密钥差异位的改进相关性分析方法。该方法利用...
一种属性相关性度量评价方法,雷力明,孙中彬,属性选择是一种压缩数据维度的有效方式,在分类任务中,属性选择可以有效提高结果准确率,同时还能压缩数据量、提高模型的可理解
电子政务-基于关键词检索指数相关性分析的用电需求预测方法.zip
6-2+文娱搜索在深度语义相关性计算中的探索
计算时间序列的关联维,可评价时间序列的相关性
计算文档主题相关性的两种方法,因为我不会用博客写公式,所以干脆上传到这儿了!
云计算-基于共振理论的词汇相关性计算.pdf