爬虫抓取UserAgent问题 - ttitfly的笔记 - ITeye博客

`

ttitfly

浏览: 617470 次
性别:
来自: 杭州

最近访客更多访客>>

xubbsun

xuwenyan

u011158808

zws

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xianzi_2008： xianzi_2008 写道楼主请教下，我缓存了一个List& ...
Ehcache
xianzi_2008：楼主请教下，我缓存了一个List<Bean>对象， ...
Ehcache
jsdsh：收藏好.五个字
hibernate之one-to-many详细
Tlife：好！！！！
hibernate------HQL总结
yanqingluo：例子很恰当。
观察者模式

爬虫抓取UserAgent问题

博客分类：

爬虫技术

.net XML Google

阅读更多

爬虫抓取问题：

cpp 代码

wget http://www.bokee.net/alisoubao/rss2.xml

这个地址抓取的内容为以前很老的内容。
同样用java写的爬虫程序抓取的内容和用wget抓取的内容一样。

而用

cpp 代码

curl http://www.bokee.net/alisoubao/rss2.xml

抓取的内容则是最新的。

感觉很奇怪。后来在google搜索了一下 wget的参数，最后用

cpp 代码

wget --user-agent=AGENT http://www.bokee.net/alisoubao/rss2.xml

来抓取，抓取的内容是最新的，和用curl抓取的是一样的。

原因是因为：
--user-agent=AGENT 加了这个参数的意思是设定代理的名称为 AGENT而不是默认的 Wget/VERSION.

可见bokee网对user-agent为AGENT的请求进行了过滤。

同理：
检查java写的爬虫程序里,请求时带的user-agent里含有crawler
所以bokee网也应该对crawler的user-agent进行了过滤。

解决办法：把user-agent的值改写即可。

分享到：

java基本知识备注 | 用PowerDesigner设计数据库

2007-10-16 16:27
浏览 2361
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java爬虫引擎Java爬虫引擎: 一、此爬虫引擎利用HttpClient实现，支持http与https，支持自定义UserAgent，自定义Header，支持Proxy，支持HTML抓取，也支持图片抓取。此框架分三个部分：WebClient，Webquest以及ResponseResult，其中WebClient为...

基于Python的京东评论爬虫包含对数据的采集、清洗、可视化、分析等过程，作为数据库课程设计项目.zip: 基于Python的京东评论爬虫包含对数据的采集、清洗、可视化、分析等过程，作为数据库课程设计项目.zip 抓取评论的关键字用户ID 评论内容会员级别点赞数回复数评价星级购买时间手机型号抓取原理分析京东评论...

Java爬虫引擎cfw.http.jar: 一、此爬虫引擎利用HttpClient实现，支持http与https，支持自定义UserAgent，自定义Header，支持Proxy，支持HTML抓取，也支持图片抓取。此框架分三个部分：WebClient，Webquest以及ResponseResult，其中WebClient为...

轻量化的Java网络爬虫 GECCO.zip: }demo地址：教您使用java爬虫gecco抓取JD全部商品信息（一）教您使用java爬虫gecco抓取JD全部商品信息（二）教您使用java爬虫gecco抓取JD全部商品信息（三）集成Htmlunit下载页面爬虫的监控一个完整的例子，分页处理...

Gecco网络爬虫-其他: 主要特征：简单易用，使用 jquery 风格的选择器抽取元素支持爬取规则的动态配置和加载支持页面中的异步 ajax 请求支持页面中的 javascript 变量抽取利用 Redis 实现分布式抓取,参考gecco-redis支持结合 Spring 开发...

Python爬虫小技巧之伪造随机的User-Agent: 在Python爬虫的过程中经常要模拟UserAgent, 因此自动生成UserAgent十分有用通过UA来判断不同的设备或者浏览器是开发者最常用的方式方法，这个也是对于Python反爬的一种策略，但是有盾就有矛啊写好爬虫的原则只有一...

xmg-gecco-demo-master.zip: 通用爬虫一般关注三个主要的问题：下载、排序、索引。主题爬虫一般关注的是：下载、内容抽取、灵活的业务逻辑处理。 Gecco的目标是提供一个完善的 » 二、一分钟你就可以写一个简单爬虫示例代码这里用抓取gecco...

clapScrap:Web爬虫节点库: Web抓取节点库一个基于puppeteer的简单库，用于从Web抓取数据你好，世界： const ClapScrap = require ( 'ClapScrap' ) ; const URL = 'https://coolurl.com' ; //the url to scrap const userAgent = 'your user...

sparender:基于puppeteer的高性能SPA SEO解决方案: 但很多搜索引擎，社交媒体，爬虫不支持抓取JavaScript的网页，也就无法做网站SEO。通过UserAgent判断,如果是来自于爬虫, 则通过nginx(tomcat, Apache)等反向代理到本服务,则可以把渲染好的html网页内容传递给搜索...

SeimiCrawler文档离线版: •SeimiCrawler一个敏捷强大...常见问题汇总 ◦6.1.如何设置网络代理 ◦6.2.如何开启cookie ◦6.3.如何启用分布式模式 ◾6.3.1.参考 ◾6.3.2.特别注意 ◦6.4.如何设置复杂的起始请求 •7.社区讨论 •8.项目源码

yjdirscan:御剑目录扫描专业版，简单实用的命令行网站目录扫描工具，支持爬虫、fuzz、自定义字典、字典变量、UA修改、假404自动过滤、扫描控速等功能: 20201018 ★新增存活预判（当目标无法连接3次自动撤销任务）★新增首页爬虫（只抓取首页的目录进行二次扫描）★新增文件存储（可以保存扫描结果到指定文位置）★新增跳过大小（可以设定要忽略的页面大小，min-max）...

2023最新代理IP池+爬取某小说网站: 2.ip_collection.py 采集代理ip网站，这里总共采集了6个代理ip网站，目前我只采集了首页的ip，这些网站活跃度还可以，基本每日抓取一次即可 3.ip_verify.py 代理ip校验，检测代理IP是否可用 4.ip_set.py 开了三个...

C#信息采集工具实现: 最近想整只爬虫玩玩，顺便熟悉下正则表达式。开发环境 vs2008 sql2000 实现方法如下 1.先抓取网页代码 2.通过正则匹配出你需要的内容比如http://www.soso.com/q?w=%C4%E3%BA%C3&pg=1 页面中搜索结果的标题...

Global site tag (gtag.js) - Google Analytics