反爬虫

st4024589553

浏览: 364158 次
性别:
来自: 四川

最近访客更多访客>>

chenjingbo

zpfpublic

joy_gb

WangJiaX

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

爬虫学习

反爬虫 python

1. 伪装user agent
      User agent 是HTTP协议的中的一个字段，其作用是描述发出HTTP请求的终端的一些信息。服务器通过这个字段就可以知道要访问网站的是什么人了。每个浏览器，每个正规的爬虫都有其固定的user agent，因此只要将这个字段改为这些知名的user agent，就可以成功伪装了。不过，不推荐伪装知名爬虫，因为这些爬虫很可能有固定的IP，如百度爬虫。与此相对的，伪装浏览器的user agent是一个不错的主意，因为浏览器是任何人都可以用的，换名话说，就是没有固定IP。推荐准备若干个浏览器的user agent，然后每次发送请求的时候就从这几个user agents中随机选一个填上去。IE的几个user agent如下：

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

设置代码如下（假设使用JAVA + HttpClient 4.1.2)
HttpGet getMethod = new HttpGet("URL");
getMethod.setHeader("User-Agent", "user agent内容");
python如下
定义一个user agent列表
list_User_Agent=[
             "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0) ",
             "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2) ",
              "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
                ]
def getContent(url,list_User_Agent):
    '''@获取403禁止访问的网页，反ip查封 '''
    random_header=random.choice(list_User_Agent)#在请求头列表中随机的取出一个请user_agent
    print random_header
    req=urllib2.Request(url)
    req.add_header("User-Agent",random_header)
    req.add_header("Host", "www.tianyancha.com")
    req.add_header("Referer", "www.tianyancha.com")
    req.add_header("CheckError","check")
    req.add_header("GET",url)
    req.add_header("Cookie","自己根据实际情况写")
    content=urllib2.urlopen(req).read()
    return content
getContent(url_temp,list_User_Agent)

2. log in
      虽然有些网站不登陆就能访问，但是它一检测到某IP的访问量有异常，就会马上提出登陆要求。如果是不带验证码的，那么果断登陆吧。不过，在登陆之前要做些准备——查清楚POST登陆请求时要附带哪些参数。我的做法是先用badboy录制登陆过程，然后将这一过程导出为jmeter文件，最后用jmeter查看登陆所需的参数。查完后，就可以登陆，具体如下所示

复制代码
        DefaultHttpClient httpclient = new DefaultHttpClient();
        HttpPost postMethod = new HttpPost("http://passport.cnblogs.com/login.aspx");    //注意用post

        //登陆博客园所需要的参数
        List nvps = new ArrayList();
        nvps.add(new BasicNameValuePair("tbUserName", "风炎"));
        nvps.add(new BasicNameValuePair("tbPassword", "zero"));
        nvps.add(new BasicNameValuePair("btnLogin", "登录"));
        nvps.add(new BasicNameValuePair("__EVENTTARGET", ""));
        nvps.add(new BasicNameValuePair("__EVENTARGUMENT", ""));
        nvps.add(new BasicNameValuePair("__VIEWSTATE", "/wEPDwULLTE1MzYzODg2NzZkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYBBQtjaGtSZW1lbWJlcm1QYDyKKI9af4b67Mzq2xFaL9Bt"));
        nvps.add(new BasicNameValuePair("__EVENTVALIDATION", "/wEWBQLWwpqPDQLyj/OQAgK3jsrkBALR55GJDgKC3IeGDE1m7t2mGlasoP1Hd9hLaFoI2G05"));
        nvps.add(new BasicNameValuePair("ReturnUrl", "http://www.cnblogs.com/"));
        nvps.add(new BasicNameValuePair("txtReturnUrl", "http://www.cnblogs.com/"));

        postMethod.setEntity(new UrlEncodedFormEntity(nvps, HTTP.UTF_8));
        HttpResponse response = httpclient.execute(postMethod);
复制代码
         由于httpClient会自动管理cookie，所以接下来直接get或者post就行了。

3. 使用代理
      如果对方用某段时间内某IP的访问次数来判定爬虫，然后将这些爬虫的IP都封掉的话，以上伪装就失效了。对方的这个思路隐含着一个假设：爬虫的访问量必然比正常用户的大很多，因而只要使这个假设不成立就可以了。这时就该代理上场了。所谓代理就是介于用户与网站之间的第三者：用户先将请求发到代理，然后代理再发到服务器，这样看起来就像是代理在访问那个网站了。这时，服务器会将这次访问算到代理头上。同时用多个代理的话，单个IP的访问量就降下去了，于是就有可能逃过一劫。不过，这个方法最大的问题就是找到稳定的代理（有钱买代理的，可以无视这句话）。我目前是在无忧代理找，但找到的大部分都不能用，少部分能用的也不稳定。求分享好用的免费代理。

      假设找到/买了N个代理，那么要如何管理这些代理呢？我的想法是做一个类似于内存池的IP池。这样做的好处是便于管理以及易于扩展。当只有一个代理时，其用法如下所示

复制代码
        DefaultHttpClient httpclient = new DefaultHttpClient();

        //此代理不保证你看到的时候还存活
        HttpHost proxy = new HttpHost("u120-227.static.grapesc.cz", 8080);
        httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY,proxy);

        //如果代理要认证，则加上以下语句
//        httpclient.getCredentialsProvider().setCredentials(new AuthScope("proxy adress", proxy port),
//                new UsernamePasswordCredentials("username", "password"));

        //记得将网址拆成以下形式
        HttpHost targetHost = new HttpHost("www.cnblogs.com");    //网站名前面不要加http://
        HttpGet httpget = new HttpGet("/FengYan/");

        HttpResponse response = httpclient.execute(targetHost, httpget);
复制代码
        补充下，如果是ADSL拨号，那么无需担心被封IP，因为一般来说，当你重新拨号时，你会得到一个不一样的IP。

4. 降低访问频率
      如果说找不到又免费又稳定的代理呢？那只好用最后一招了——降低访问频率。这样做可以达到与用代理一样的效果——防止被对方从访问量上看出来。当然，在抓取效率上会差很多。此外，降低访问频率只是一个指导思想，在这个思想下，可以得到很多具体做法，例如：每抓取一个页面就休息随机秒（个人感觉比固定时间的要好）；限制每天抓取的页面数量。

分享到：

Java：利用java Timer类实现定时执行任务的 ... | slf4j使用日志

2017-03-17 10:34
浏览 671
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

反爬虫

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

反爬虫

评论

发表评论

相关推荐

采集ymx商品信息

根据百度加密url， 获取真实url

fiddler 抓取 手机https 数据包 完美解决

无忧代理IP

无所不能的四种请求方式（天下武功为怪不破）

post请求加json参数方式二

post请求加json参数或xml参数

jd编号

清除google缓存

adb server is out of date. killing... 本地连接夜神模拟器失败、超时

fiddler抓取的https请求 数据乱码问题解决方案

chromium.Browser 禁止加载图片，提升加载速度

chrome 禁止加载网页图片 解决办法

开源爬虫框架的优缺点？

爬虫被封禁原因

App数据抓取

八爪鱼规则学习

java模拟jquery请求动作（模拟点击、选择下拉）

httpclient

jsoup + json 解析网页

最近访客更多访客>>

根据百度加密url，获取真实url

fiddler 抓取手机https 数据包完美解决

fiddler抓取的https请求数据乱码问题解决方案

chrome 禁止加载网页图片解决办法