`

从别人的网站上爬取东西(你能把这事儿做得更简单么?)

阅读更多

从别人的网站上爬取东西(你能把这事儿做得更简单么?)


Ryan Bates在 他的RailsCasts中介绍了两个从别的网站爬取内容的小工具。
从头开始做从WalMate网站爬取商品价格并更新自己库中,边讲边做不超过15分钟。

看完第一个后感觉这个事情已经非常简单了:
#1: http://rails casts.com/episodes/173-screen-scraping-with-scrapi

再看第二个才知道我们还可以把事情做得更简单优雅些:
#2: http://railscasts.com/episodes/190-screen-scraping-with-nokogiri

其实还涉及到两个从页面中抓取CSS定位符的小工具,
一个是FireBug插件: http://www.quarkruby .com/2007/9/ ... tml-screen-scraping
另一个是相当有创意的 http://www.selectorgadget.com/   啥东西都不用装,拖到地址栏就可以用了。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics