`
pengzhoushuo
  • 浏览: 12499 次
  • 性别: Icon_minigender_1
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

HttpClient4.0手动处理redirect

阅读更多
上个星期做了一个爬虫,主要是实现手机上不通过标准浏览器的方式实现Facebook认证过程,期间遇到个问题需要手动处理redirect。
HttpClient4.0的GET方法完全redirect,POST方法部分支持redirect,也就是说,我们在大部分情况下爬网页时中间的一些redirect过程可以当作是透明的,输入一个URL得到的是redirect后的最终结果页。
刚好,我需要redirect过程中的一个临时页面的一些信息,而HttpClient4.0 "自作主张"地帮我忽略了,如何手动处理呢?
结过查看其内部源码,HttpClient默认是通过DefaultRedirectHandler来管理跳转的,该类继承自接口,该接口有两个方法

public URI getLocationURI(HttpResponse response, HttpContext context)
throws ProtocolException;
public boolean isRedirectRequested(HttpResponse response,
HttpContext context);

其中isRedirectRequested是用于判断当前的请求是否需要redirect。我们只需要定义一个自己的RedirectHandler来处理redirect就可以了,如下:
public class DummyRedirectHandler implements RedirectHandler {

public URI getLocationURI(HttpResponse response, HttpContext context)
throws ProtocolException {
// TODO Auto-generated method stub
return null;
}

public boolean isRedirectRequested(HttpResponse response,
HttpContext context) {
// 由于我们需要手动处理所有的redirect,所以直接return false
return false;
}

}

AbstractHttpClient类setRedirectHandler方法用于设置自定义RedirectHandler实现

httpclient.setRedirectHandler(new DummyRedirectHandler());

然后通过搬运捕获Header("Location"),可以取得跳转中间过程的URL,希望能帮到像我这样做爬虫天天在网上的童鞋。
分享到:
评论
2 楼 tomfish88 2011-08-02  
请教一下  页面302跳转如何处理呢,我跳转完cookie就没有了


<html><body>You are being redirected.</body></html>

就是个转向


详见  http://tomfish88.iteye.com/blog/1135976
1 楼 jason34 2011-07-25  
太有用了,谢谢你,我也正是遇到这个问题。感激你啊

相关推荐

Global site tag (gtag.js) - Google Analytics