`
thebigforest
  • 浏览: 21728 次
最近访客 更多访客>>
社区版块
存档分类
最新评论

抓取百度搜索结果——解密百度狗

阅读更多
网上有很多类似“百度狗” 的元搜索引擎,他们抓取百度和google的搜索结果,然后合并在一个网页里。 且不说这样做有什么意义,但是这的确是一件好玩的事,自己想了一下原理,写了这样一个类,可以抓取百度里的搜索结果。 原理很简单: 通过搜索关键和页码字进入百度,例如“http://www.baidu.com/s?wd=搜索关键字&pn=页码(这里的页码计算公式是:10*(页码-1)) 找到真正有用的那一行,把信息读出来, 按照每一个项的特点把他们切开,例如URL前面都有“class=f”…… 然后存起来 下面是代码: <img src ="aggbug/1650307.aspx" width = "1" height = "1" />
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics