`
imjl
  • 浏览: 154615 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

新闻之主题相似计算

阅读更多
新闻转载非常多,搜索新闻时常常碰到,结果里有很多相似新闻出现在一个页面,影响用户查看。

我这里说个主题(也就是新闻题目)相似计算。

分析:新闻主题大多是经过少量修改,大致状况是,加转载,截取主题,换个类似主题。

解决:过滤一些无意义字符,以主题的单个字符为hashtable主键,比较后计算相同key的出现次数,以它为分子,较小的hashtable长度为分母,获得一个比值,将它和一个常量(反复测试后获得的相似率)比较,一旦大于就认为其相似。

实际过程根据自己需要做些小调整,以上计算有最短长度限制(小于该长度的主题不计算)。

很早以前写得,现在工作中使用的,效果还行。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics