抓取谷歌网页问题 - 开发笔记 - ITeye博客

`

aguang110

浏览: 863022 次
性别:
来自: 北京

最近访客更多访客>>

tongwawa

ggggoo

lyne15730

gggfff39

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

bugyun：受教了，谢谢
java 正则表达式过滤html标签
xiongxingxing_123：学习了，感谢了
java 正则表达式过滤html标签
wanmeinange：那如果无状态的。对同一个任务并发控制怎么做？比如继承Quart ...
quartz中参数misfireThreshold的详解
fanjieshanghai： ...
XPath 元素及属性查找
tianhandigeng：还是没明白
quartz中参数misfireThreshold的详解

抓取谷歌网页问题

博客分类：

开发笔记

XP Google Windows

阅读更多

当使用
URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");
url.openStream() 时候发现报403访问拒绝错误，是由于谷歌对java 程序进行限制，缺少Agent。

解决办法：
URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");
URLConnection con = url.openConnection();
con.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows XP; DigExt)");
InputStream in = con.getInputStream();

分享到：

学习apache commons-io类库中的文件清除器 | jsoup抓图

2011-03-02 11:52
浏览 846
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

C# 调用IE 核心抓取google 数据: C# 调用IE 核心抓取google 数据

基于python语言的google网页抓取经纬度: 基于phython语言，通过google网页抓取城市经纬度

WebToJPG 抓取网页转化成JPG图片: 抓取网页成图片，做网站预览非常有用，比如google的浏览器就有这个功能，只是这个是asp.net版本的。

Chrome插件DownFaster 一键下载网页资源: 在google中浏览网页时经常遇到网站上的图片和css、js需要在sources文件下一个一个去进行保存资源，现在这款DownFaster插件，可以帮助我们一键下载资源，只要勾选上自己所需要的资源就行了，然后按Download键，会自动...

基于PHP的Google网页搜索抓取(php有后台免费版)源码.zip: 基于PHP的Google网页搜索抓取(php有后台免费版)源码.zip

Web Scraper 爬虫网页抓取 Chrome插件: Web Scraper 爬虫网页抓取 Chrome插件，可以在chrome中选择离线安装。点击谷歌浏览器右上角的自定义及控制按钮，在下拉框中选择工具选项，然后点击扩展程序来启动Chrome浏览器的扩展管理器页面。在打开的谷歌浏览...

Python爬虫抓取指定网页图片代码实例: （1）指定网站链接，抓取该网站的源代码（如果使用google浏览器就是按下鼠标右键 -> Inspect-> Elements 中的 html 内容）（2）根据你要抓取的内容设置正则表达式以匹配要抓取的内容（3）设置循环列表，重复抓取和...

winform使用谷歌浏览器内核（安装cefSharp第三方包），浏览网页，获取网页源码: 下载解压后，查看readme.txt，运行例子

ineed, 网页抓取和HTML后处理简单的方法.zip: ineed, 网页抓取和HTML后处理简单的方法网页抓取和html后处理。简单的方法。ineed 允许你使用简单的API从网页收集有用的数据。让我们从 http://google.com 收集图像，超链接，脚本和样式表：var ineed = require...

web-scraper-helper:测试网页抓取规则的工具: Coveo Cloud V2 Web和站点地图源类型可以使用Web抓取配置来排除网页部分，提取元数据，并创建要索引的网页子项目（请参阅）。 Web爬网程序帮助器直接在浏览器中工作，使您在访问需要Web爬网的网站页面时可以轻松地...

java抓取网页源码-ldspider:链接数据网络的爬虫: java抓取网页源码介绍 LDSpider项目为关联数据网络提供了一个网络爬行框架。爬取关联数据网络的要求和挑战不同于常规的网络爬行，因此 LDSpider 项目提供了一个网络爬虫，适用于从关联数据网络中遍历和收集内容。 ...

易语言伪造请求ip 伪造请求ip 网页访问伪造ip: 易语言伪造网页访问ip地址结合HTTP扩展请求头 X-Forwarded-For 可以对客户端IP进行伪造 X-Forwarded-For 是一个 HTTP 扩展头部，用来表示HTTP请求端真实 IP，HTTP/1.1 协议并没有对它的定义，但现如今X-Forwarded-...

CHROME浏览器链接抓取工具: 最新版本，可以方便的抓取选中的链接。适用于chrome浏览器

谷歌浏览器115版本的chromedriver驱动，基于mac-arm64位系统: 数据抓取：使用驱动程序，可以编写脚本来抓取网页上的数据，用于分析、监测和报告等用途。无人值守操作：驱动程序使开发人员能够在无人值守环境中模拟用户行为，从而执行重复性任务，如网站巡检、定时报告生成等...

Google-News:使用Beautiful-soup网页抓取功能在Python中构建的Simple News应用: 谷歌新闻使用Beautiful-soup网页抓取功能在Python中构建的Simple News应用程序。如何使用？下载GoogleNews.py文件并添加到您的项目中。如何获得用户代理？在我的用户代理中搜索您的Chrome。例子from GoogleNews ...

python访问抓取网页常用命令总结: python访问抓取网页常用命令简单的抓取网页: import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象 page=response.read() 直接将URL保存为本地文件： import ...

java抓取网页数据源码-neocrawler:NodejsCrawler，包括schedule、spider、webuiconfig、pro: java抓取网页数据源码一、概述 NEOCrawler(中文名：牛咖)，是nodejs、redis、phantomjs实现的爬虫系统。代码完全开源，适合用于垂直领域的数据采集和爬虫二次开发。【主要特点】使用nodejs实现，javascipt简单、...

Textify 1.10.2一款可以复制禁止复制网页的复制软件.rar: 除了抓取文字，您还可以使用 Textify 抓取网页图像的 Alt 描述文本与 URL 链接，您只需通过 chrome://accessibility/ 命令将全局辅助功能模式 Global accessibility mode 设置为 on 状态即可把谷歌浏览器变身为一款...

网络爬虫一种搜索引擎: 　为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(general?purpose...

浅谈Python爬虫原理与数据抓取: 通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。通用搜索引擎（Search Engine）工作原理通用网络爬虫从...

Global site tag (gtag.js) - Google Analytics