httpclient获取网页内容没设置User Agent导致有些网站抓不取到内容

jilong-liang

浏览: 471342 次
性别:
来自: 广州

最近访客更多访客>>

word5

qq243348167

tian_yu_bing

追逐什么

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HttpClient

httpclient

log4j:WARN No appenders could be found for logger (org.apache.commons.httpclient.HttpClient).

log4j:WARN Please initialize the log4j system properly.

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<head>

<title>您的访问请求被拒绝 - ITeye技术社区</title>

.clearfix:after {

content: ".";

display: block;

height: 0;

clear: both;

visibility: hidden;

}

.clearfix {

display:block;

}

.left {

float: left;

}

h1 {font-size: 20px;color: #6293BB;}

p {font-size: 14px;color: #6293BB;}

</style>

</head>

<body>

<h1>您的访问请求被拒绝</h1>

</div>

</div>

<p>您可能使用了网络爬虫抓取ITeye网站页面！</p>

<p>ITeye网站不允许您使用网络爬虫对ITeye进行恶意的网页抓取，请您立刻停止该抓取行为！</p>

<p>如果您的网络爬虫不属于恶意抓取行为，希望ITeye网站允许你进行网页抓取，请和ITeye管理员联系，取得授权: webmaster<img src='/images/email.gif' alt="Email" />iteye.com</p>

<p>如果您确实使用浏览器访问，但是被错误的识别为网络爬虫，请将您浏览器发送的“User Agent”信息告知我们，帮助我们解决错误: webmaster<img src='/images/email.gif' alt="Email" />iteye.com</p>

</div>

</div>

</body>

</html>

HttpClient httpClient = new HttpClient();
		GetMethod getMethod = new GetMethod("http://www.iteye.com/");
		/**
		 * 设计USER_AGENT 如果不设置的话就禁止了改网页的内容
		 */
		String USER_AGENT="Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) Gecko/20090803 Fedora/3.5.2-2.fc11 Firefox/3.5.2";
		String User_Agent="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5; .NET CLR 1.1.4322; .NET CLR 2.0.50727; Alexa Toolbar; MAXTHON 2.0)";
		
		httpClient.getParams().setParameter(HttpMethodParams.USER_AGENT,User_Agent);//设置信息

0
顶

1
踩

分享到：

多页单个tif文件转换为多个jpg文件 | oracle的delete drop truncate删除的区别

2013-05-29 10:58
浏览 1604
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论