让爬虫轻松一点~（一） - - ITeye博客

`

debbbbie

浏览: 26213 次
性别:
来自: 北京

最近访客更多访客>>

picksun

Variazioni

e_e

柏新星

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

让爬虫轻松一点~（一）

博客分类：

ruby
useragent
spider

阅读更多

在信息大爆炸的互联网，数据多的烦不胜数，想要人为的统计某类信息，恐怕越来越难了，这时候就需要爬虫的帮助了，一如 360 爬取百度的百科、知道，一淘爬取各大电商的产品、用户评论，百姓网从赶集网页面上收集其用户公开的 QQ 邮箱并发送推广邮件。。。

随着爬虫的发展，已经严重危害了目标网站的服务质量及数据安全，于是他们开始各种围追堵截。道高一尺魔高一丈，我们的爬虫终究能够突破层层壁垒，拿到想要的数据。

今天，我们就做一件事，让爬虫更智能。一般的服务器都会判断访问来源的 User-Agent，适时的更好一下你的 User-Agent，无非是个明智之举。 Gem useragents，已经为您封装了此项需求，只需拿来即用就行。用法非常简单：

首先安装一下本 gem，gem install useragents。

然后对代码：

    require 'httparty'
    HTTParty.get('http://ruby-china.org')

更改成这样即可

    require 'useragents'

    agent = UserAgents.rand()
    # => "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1464.0 Safari/537.36"
    HTTParty.get('http://ruby-china.org', :headers => {'User-Agent' => agent})

useragents 全部收集于流行浏览器 Chrome, Opera, Safari, InternetExplorer, Firexof，并剔除了其中的老旧版本，最终保留了 500 多个 User-Agent，并会定时更新。

附上 github 地址 https://github.com/debbbbie/useragents-rb，欢迎 fork 或提交 issues 。

分享到：

解析 Github 的默认头像

2013-12-21 19:50
浏览 902
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

稀有的、完整的网络蜘蛛、爬虫源代码~~~！: 我翻出我的布袋，把它们依然放回它们应该呆的地方，让更多的人们得到启发，开始创新之旅，期待您的精彩，感谢曾经自由的（不被看重）网络~~~ ------------------------------- 这个是完整的项目源代码，原汁原味，...

B站用户爬虫好耶~是爬虫.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

tumblr爬虫: python写的tumblr爬虫~~~~~~~~~~~~~~~~~~。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。~~~~好东西

爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文: 爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文...

网络爬虫~源码: 网络爬虫~源码。可以遍历网络，查找自己想要的资讯。但是，存在不稳定的问题。大家一起来讨论。

52讲轻松搞定网络爬虫.txt: 这个课程除了为你讲解爬虫技术的必备知识点，还会结合当下的技术情况为你讲解「JavaScript 逆向」「App 逆向解密」「深度...学了这个专栏之后，你能轻松过掌握当下优秀爬虫所用到的必备技术，应对绝大多数网站的爬取。

网络爬虫爬虫软件: 需要加载一个字典文件，此字典文件在爬虫程序中要求放在此目录结构下： c:\dictionary\dictionary.txt，词典默认认为是按照词语长到短的顺序排列的 2、此爬虫程序爬到的网页内容存储到数据库中，运用的是SQL Server ...

网络爬虫网络爬虫网络爬虫: 网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫

网站图片爬虫小工具网站图片爬虫小工具: 网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具...

一个可视化的抓取b站弹幕和评论的爬虫项目~.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据: nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

Python网络爬虫技术第1章 Python爬虫环境与爬虫简介教案.pdf: Python网络爬虫技术第1章 Python爬虫环境与爬虫简介教案.pdfPython网络爬虫技术第1章 Python爬虫环境与爬虫简介教案.pdfPython网络爬虫技术第1章 Python爬虫环境与爬虫简介教案.pdfPython网络爬虫技术第1章 ...

python爬虫轻松绕过 cloudflare防火墙: python爬虫轻松绕过 cloudflare 防火墙遇到 cloudflare 爬虫基本歇菜了, 看例子轻松上手

Python自动办公- Python爬虫~已爬取目标网站所有文章，后续如何只获取新文章 Python源码: Python自动办公- Python爬虫~已爬取目标网站所有文章，后续如何只获取新文章 Python源码 Python自动办公- Python爬虫~已爬取目标网站所有文章，后续如何只获取新文章 Python源码 Python自动办公- Python爬虫~已爬取...

Crawler爬虫软件，轻松获取网络资源: 网络爬虫，轻松获取网络资源！网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。

python爬虫一.zippython爬虫一.zip: python爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zip

用python编写网络爬虫教程合集+一个爬虫框架: 用python编写网络爬虫教程合集+一个爬虫框架爬虫入门网络爬虫爬虫精华 web scraper框架

自己动手写网络爬虫光盘文件6~9章: 自己动手写网络爬虫光盘文件6~9章自己动手写网络爬虫光盘文件6~9章

150讲轻松学习Python网络爬虫: 150讲轻松学习Python网络爬虫,包含代码、笔记、ppt、软件，资料很齐全！

Global site tag (gtag.js) - Google Analytics