代理下载网页，挖掘数据 - 东湖畔 - ITeye博客

`

sblig

浏览: 217926 次
性别:
来自: 杭州

最近访客更多访客>>

ws07

scotttom020

itsuntc

JOEDING1974

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

sblig：配置分片： mongo -port 27017config ...
搭建Mongodb集群：分片Sharding+副本集Replica Set
sblig：配置路由：mongs: 40000 40100 40200sc ...
搭建Mongodb集群：分片Sharding+副本集Replica Set
fuanyu：哥们，干得漂亮。。
struts2 高危漏洞修复
sblig：配置列子如下 <?xml version="1 ...
跟我学Spring3 学习笔记一
sblig： 307622798 写道博主你好，最近在看你的js系列文章，发 ...
JavaScript 学习笔记二对象的访问

代理下载网页，挖掘数据

博客分类：

java

阅读更多

URL url = new URL("http://blog.csdn.net/mywait_00/article/details/1698627");

//设置代理
Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("openproxy.fsfd.com", 8080));
//打开代理
URLConnection coon = url.openConnection(proxy);
//访问的时候需要设置 user-agent
coon.setRequestProperty("User-Agent","Mozila/4.0(compatible;MSIE 5.0;Windows XP;DigExt");

BufferedReader in = new BufferedReader(new InputStreamReader(coon.getInputStream()));

String inputLine; StringBuffer html = new StringBuffer();
while ((inputLine = in.readLine()) != null) {
    html.append(inputLine);
}

分享到：

分表分区 | java nio 编程学习一

2012-09-25 13:51
浏览 839
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java爬虫，利用代理IP爬取大众点评网站内容.zip: 如果您下载了本程序，但是该程序无法运行，或者您不会部署，那么您可以选择退款或者寻求我们的帮助（如果找我们帮助的话，是需要追加额外费用的）爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。...

论大数据的数据来源与采集.docx: 网络爬虫的效率直接关系到大数据分析和挖掘的整体效率，目前使用广泛的优化方法有爬取策略优化和爬虫结构设计优化.4、众包：在美国《连线》杂志2006年的6月刊上，该杂志的记者Jeff Howe首次推出了众包的概念，即指一...

基于C#.NET的简单网页爬虫，支持异步并发、切换代理、操作Cookie、Gzip加速。.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

网站图片爬虫(已包含：微博，微信公众号，花瓣网)及免费IP代理豆瓣电影爬虫.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

河北省财税代理记账拓客专用软件v3.1免费下载: 软件的作用是财税行业拓展客户了的，主要是python语言编写，运用爬虫技术深度挖掘了河北省公开的企业数据。因为与工商信息接口同步，可以做到网站数据更新软件数据也更新的时效性。并且还可以不限量不限次数的下载...

爬虫, http代理, 模拟登陆!.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

针对反爬虫问题的自动代理池组件.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

免费 IP 代理池。Scrapy 爬虫框架插件.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

爬取免费可用代理，供爬虫等工具使用.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

利用JAVA的JFinal模块建立的爬虫代理IP池(proxy_pool).zip: 如果您下载了本程序，但是该程序存在问题无法运行，那么您可以选择退款或者寻求我们的帮助（如果找我们帮助的话，是需要追加额外费用的）。另外，您不会使用资源的话（这种情况不支持退款），也可以找我们帮助（需要...

爬虫代理IP池服务，可供其他爬虫程序通过restapi获取.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

一个简单易用的爬虫框架,内置代理管理模块,灵活设置多线程爬取.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

知乎-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

电商爬虫系统：京东，当当，一号店，国美爬虫（代理使用）；论坛、新闻、豆瓣爬虫.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

微信公众号爬虫 (只需设置代理, 一键可以爬取所有历史文章).zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

Java毕业设计-[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar: * 数据挖掘与分析：从大量网页中提取有价值的数据进行分析。 * 舆情监测：实时抓取社交媒体、新闻等网站的动态信息。 * 网站内容更新：自动检测并下载网站更新的内容。 **注意事项**： * 请遵守目标网站的robots....

该项目为scrapy框架脚手架.zip: 整合了自动切换agent，自动切换代理ip等中间件，可以下载后自行编写爬虫。支持：豆瓣电影，某东商品信息（名称价格等）。爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、...

宽带爬虫工具：可以自动实现移动宽带激活动作，快速下载对应软件包，实现自动化激活操作: 它可以帮助用户快速地获取大量的网页数据，用于数据分析、挖掘和建模等应用。宽带爬虫工具通常具有以下特点： 1. 支持多线程爬取，可以同时抓取多个网页。 2. 支持自定义请求头，可以模拟不同的浏览器类型和版本...

天天基金网爬虫.zip: 可多ip节点部署，按ip节点动态调整并发数，可设置代理ip反爬，定时爬取，定时通过邮件反馈基金行情统计数据爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储...

Global site tag (gtag.js) - Google Analytics