`
ttitfly
  • 浏览: 617470 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

爬虫抓取UserAgent问题

阅读更多

爬虫抓取问题:

cpp 代码
  1. wget http://www.bokee.net/alisoubao/rss2.xml  


这个地址抓取的内容为以前很老的内容。
同样用java写的爬虫程序抓取的内容和用wget抓取的内容一样。

而用

cpp 代码
  1. curl http://www.bokee.net/alisoubao/rss2.xml  

抓取的内容则是最新的。

感觉很奇怪。后来在google搜索了一下 wget的参数,最后用

cpp 代码
  1. wget --user-agent=AGENT http://www.bokee.net/alisoubao/rss2.xml  


来抓取,抓取的内容是最新的,和用curl抓取的是一样的。

原因是因为:
--user-agent=AGENT   加了这个参数 的意思是 设定代理的名称为 AGENT而不是默认的 Wget/VERSION.

可见bokee网对user-agent为AGENT的请求进行了过滤。

同理:
检查java写的爬虫程序里,请求时带的user-agent里含有crawler
所以bokee网也应该对crawler的user-agent进行了过滤。

解决办法:把user-agent的值改写即可。

分享到:
评论

相关推荐

    Java爬虫引擎Java爬虫引擎

    一、此爬虫引擎利用HttpClient实现,支持http与https,支持自定义UserAgent,自定义Header,支持Proxy,支持HTML抓取,也支持图片抓取。此框架分三个部分:WebClient,Webquest以及ResponseResult,其中WebClient为...

    基于Python的京东评论爬虫包含对数据的采集、清洗、可视化、分析等过程,作为数据库课程设计项目.zip

    基于Python的京东评论爬虫包含对数据的采集、清洗、可视化、分析等过程,作为数据库课程设计项目.zip 抓取评论的关键字 用户ID 评论内容 会员级别 点赞数 回复数 评价星级 购买时间 手机型号 抓取原理 分析京东评论...

    Java爬虫引擎cfw.http.jar

    一、此爬虫引擎利用HttpClient实现,支持http与https,支持自定义UserAgent,自定义Header,支持Proxy,支持HTML抓取,也支持图片抓取。此框架分三个部分:WebClient,Webquest以及ResponseResult,其中WebClient为...

    轻量化的Java网络爬虫 GECCO.zip

    }demo地址:教您使用java爬虫gecco抓取JD全部商品信息(一)教您使用java爬虫gecco抓取JD全部商品信息(二)教您使用java爬虫gecco抓取JD全部商品信息(三)集成Htmlunit下载页面爬虫的监控一个完整的例子,分页处理...

    Gecco网络爬虫-其他

    主要特征:简单易用,使用 jquery 风格的选择器抽取元素支持爬取规则的动态配置和加载支持页面中的异步 ajax 请求支持页面中的 javascript 变量抽取利用 Redis 实现分布式抓取,参考gecco-redis支持结合 Spring 开发...

    Python爬虫小技巧之伪造随机的User-Agent

    在Python爬虫的过程中经常要模拟UserAgent, 因此自动生成UserAgent十分有用 通过UA来判断不同的设备或者浏览器是开发者最常用的方式方法,这个也是对于Python反爬的一种策略,但是有盾就有矛啊 写好爬虫的原则只有一...

    xmg-gecco-demo-master.zip

    通用爬虫一般关注三个主要的问题:下载、排序、索引。 主题爬虫一般关注的是:下载、内容抽取、灵活的业务逻辑处理。 Gecco的目标是提供一个完善的 » 二、一分钟你就可以写一个简单爬虫 示例代码 这里用抓取gecco...

    clapScrap:Web爬虫节点库

    Web抓取节点库 一个基于puppeteer的简单库,用于从Web抓取数据 你好,世界: const ClapScrap = require ( 'ClapScrap' ) ; const URL = 'https://coolurl.com' ; //the url to scrap const userAgent = 'your user...

    sparender:基于puppeteer的高性能SPA SEO解决方案

    但很多搜索引擎,社交媒体,爬虫不支持抓取JavaScript的网页,也就无法做网站SEO。 通过UserAgent判断,如果是来自于爬虫, 则通过nginx(tomcat, Apache)等反向代理到本服务,则可以把渲染好的html网页内容传递给搜索...

    SeimiCrawler文档离线版

    •SeimiCrawler一个敏捷强大...常见问题汇总 ◦6.1.如何设置网络代理 ◦6.2.如何开启cookie ◦6.3.如何启用分布式模式 ◾6.3.1.参考 ◾6.3.2.特别注意 ◦6.4.如何设置复杂的起始请求 •7.社区讨论 •8.项目源码

    yjdirscan:御剑目录扫描专业版,简单实用的命令行网站目录扫描工具,支持爬虫、fuzz、自定义字典、字典变量、UA修改、假404自动过滤、扫描控速等功能

    20201018 ★新增存活预判(当目标无法连接3次自动撤销任务)★新增首页爬虫(只抓取首页的目录进行二次扫描)★新增文件存储(可以保存扫描结果到指定文位置)★新增跳过大小(可以设定要忽略的页面大小,min-max)...

    2023最新代理IP池+爬取某小说网站

    2.ip_collection.py 采集代理ip网站,这里总共采集了6个代理ip网站,目前我只采集了首页的ip,这些网站活跃度还可以,基本每日抓取一次即可 3.ip_verify.py 代理ip校验,检测代理IP是否可用 4.ip_set.py 开了三个...

    C#信息采集工具实现

    最近想整只爬虫玩玩,顺便熟悉下正则表达式。 开发环境 vs2008 sql2000 实现方法如下 1.先抓取网页代码 2.通过正则匹配出你需要的内容 比如http://www.soso.com/q?w=%C4%E3%BA%C3&pg=1 页面中 搜索结果的标题...

Global site tag (gtag.js) - Google Analytics