`
lzj0470
  • 浏览: 1251041 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

httpClient 带验证码登录实现

阅读更多
在实现之前,需要注意一个问题。关于Cookie,如果能很好跟踪上到Cookie,基本上,实现都是小事一碟。
在网络上,有提到过验证码老是提示有错。貌似思路流程都是正确的。兄弟,如果你在半个小时还没搞清楚,先休息一下,听听歌,打打游戏。再想过。
推断为什么会出现这种问题。问题是你登录验证码页面(jsp,aspx),实际上就是一个会话或者Cookie记录。此时,你有去连接登录页面,有可能已经重新生成一个新的验证码啦。你用了之前的验证码,指定会提示验证码错误。
在这里,我只能说一下我遇到的这种问题的解决办法。如果还有其他情况,可以私下M我,我们继续过。
一、抓取一个农业网站思路步骤如下:
1、首先需要获取验证码页面,把它以图片的格式保证下来。(图片格式需要通过抓包的工具查看。如:httpWatch)并跟踪到的cookie保存下来。cookie必须要跟抓包工具看到的cookie一致。
2、提交登录页面所需要的字段和验证码,字段尽可能全部提交上去。
二、代码实现。
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;

import org.apache.commons.httpclient.Cookie;
import org.apache.commons.httpclient.Header;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
import org.apache.commons.httpclient.NameValuePair;
import org.apache.commons.httpclient.cookie.CookiePolicy;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.methods.PostMethod;
import org.apache.commons.httpclient.params.DefaultHttpParams;

public class __10086 {

	public void test() throws HttpException, IOException{
		String url = "http://12582.10086.cn/user/login/verifycode.aspx";
		HttpClient httpClient = new HttpClient();
		DefaultHttpParams.getDefaultParams().setParameter("http.protocol.cookie-policy", CookiePolicy.BROWSER_COMPATIBILITY);
		GetMethod getMethod = new GetMethod("http://12582.10086.cn/user/login/verifycode.aspx");  
		getMethod.setRequestHeader("Host", "12582.10086.cn");
		getMethod.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.2; rv:5.0.1) Gecko/20100101 Firefox/5.0.1");
		getMethod.setRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
		getMethod.setRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
		getMethod.setRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
		getMethod.setRequestHeader("Connection", "keep-alive");
//		getMethod.setRequestHeader("Cookie", "Hm_lvt_6e06bb5a029d6c5473951d1079638828=1328777184942; Hm_lvt_e64244e1e591d0337e17a12b714c0996=1328777186856; WT_FPC=id=183.16.35.230-1530895312.30204303:lv=1328174810886:ss=1328174810886; ASP.NET_SessionId=gj25p555exiqjd45kdcqoq55; BIGipServernxt-wz=369797312.20480.0000; Hm_lpvt_6e06bb5a029d6c5473951d1079638828=1328777184942; Hm_lpvt_e64244e1e591d0337e17a12b714c0996=1328777186856; .12582portals=4CF97704261E34DBE12913CBA18211005E960282A771D94FF3709BAFC99610A7397BE8293ADB2E876A0A7380AC4A158016419745F27511D6E79F82A408D009519D6DDFE18A578E5CFC5F48025C75B33B6EBD43953A7DB05AEBAAB856E0AA29112818B4910350AADACD2012F5DE56297B1F6622ED7F4959D31E19C474E48F7773D7966437");
		getMethod.setRequestHeader("Cache-Control", "max-age=0");
		int code = httpClient.executeMethod(getMethod);
        Header header = getMethod.getResponseHeader("Set-cookie"); 
        System.out.println(header.getValue());
        String headerCookie = header.getValue();
        String SessionId = headerCookie.substring(headerCookie.indexOf("NET_SessionId=") + "NET_SessionId=".length(), headerCookie.indexOf(";"));
        System.out.println(SessionId);
        String BIGipServernxt = headerCookie.substring(headerCookie.indexOf("BIGipServernxt-wz=") + "BIGipServernxt-wz=".length(), headerCookie.length());
        BIGipServernxt = BIGipServernxt.substring(0, BIGipServernxt.indexOf(";"));
        StringBuffer sb = new StringBuffer();
        sb.append("Hm_lvt_6e06bb5a029d6c5473951d1079638828=1328778307106; ");
        sb.append("Hm_lvt_e64244e1e591d0337e17a12b714c0996=1328778308090; ");
        sb.append("WT_FPC=id=183.16.35.230-1530895312.30204303:lv=1328174810886:ss=1328174810886; ");
        sb.append("ASP.NET_SessionId=").append(SessionId).append("; ");
        sb.append("BIGipServernxt-wz=").append(BIGipServernxt).append("; ");
        sb.append("Hm_lpvt_6e06bb5a029d6c5473951d1079638828=1328778307106; ");
        sb.append("Hm_lpvt_e64244e1e591d0337e17a12b714c0996=1328778308090");
        System.out.println(sb.toString());
        String ValidCode = savegif(getMethod);
        getMethod.releaseConnection();
        // 第二次链接
        httpClient.getHostConfiguration().setHost("12582.10086.cn", 80, "http");
        PostMethod method = getPostMethod(ValidCode);
		method.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.2; rv:5.0.1) Gecko/20100101 Firefox/5.0.1");
		method.setRequestHeader("Host", "12582.10086.cn");
		method.setRequestHeader("Accept", "application/json, text/javascript, */*");
		method.setRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
//		method.setRequestHeader("Accept-Encoding", "gzip, deflate");
		method.setRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
		method.setRequestHeader("Connection", "keep-alive");
		method.setRequestHeader("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8");
		method.setRequestHeader("X-Requested-With", "XMLHttpRequest");
		method.setRequestHeader("Referer", "http://12582.10086.cn/user/login/");
		method.setRequestHeader("Cookie", sb.toString()); 
		httpClient.executeMethod(method);
		System.out.println(method.getStatusCode());
		System.out.println(method.getResponseBodyAsString());
		// 第三次链接
		Header header1 = method.getResponseHeader("Set-cookie"); 
		System.out.println("dd=" + header1.getValue());
		sb.append("; " + header1.getValue());
		Cookie[] cookies = httpClient.getState().getCookies();
		method.releaseConnection();
		String my = "http://12582.10086.cn/my";
		System.out.println(sb.toString());
		getMethod = new GetMethod(my);
		getMethod.setRequestHeader("Host", "12582.10086.cn");
		getMethod.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.2; rv:5.0.1) Gecko/20100101 Firefox/5.0.1");
		getMethod.setRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
		getMethod.setRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
		getMethod.setRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
		getMethod.setRequestHeader("Connection", "keep-alive");
		getMethod.setRequestHeader("Referer", "http://12582.10086.cn/user/login");
		getMethod.setRequestHeader("Cookie", sb.toString());
		code = httpClient.executeMethod(getMethod);
		System.out.println(getMethod.getStatusCode());
		System.out.println(getMethod.getResponseBodyAsString());
		File storeFile = new File("c:/2008sohu.html");  
        FileOutputStream output = new FileOutputStream(storeFile);  
        //得到网络资源的字节数组,并写入文件  
        output.write(getMethod.getResponseBody());  
        output.close(); 
	}
	
	public String savegif(GetMethod getMethod) throws IOException {
		File storeFile = new File("c:/2008sohu.gif");  
        FileOutputStream output = new FileOutputStream(storeFile);  
        //得到网络资源的字节数组,并写入文件  
        output.write(getMethod.getResponseBody());  
        output.close();  
        InputStreamReader is = new InputStreamReader(System.in); 
		BufferedReader br = new BufferedReader(is);
		String ValidCode = "";
		try {
			ValidCode = br.readLine();
			br.close();
			is.close();
		} catch(Exception e) {
			e.printStackTrace();
		}
		return ValidCode;
	}
	
	private PostMethod getPostMethod(String ValidCode) {
		PostMethod post = new PostMethod("/ajax/postlogin");
		NameValuePair[] simcard = {
				new NameValuePair("email", "XXX"),
				new NameValuePair("password", "XXX"),
				new NameValuePair("ValidCode", ValidCode),
				new NameValuePair("rme", "0"),
				};
		post.setRequestBody(simcard);
		return post;
	}
	
	public static void main(String args[]) {
		__10086 _10086 = new __10086();
		try {
			_10086.test();
		} catch (HttpException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}

来源于:http://www.agrilink.cn/
分享到:
评论
1 楼 endual 2012-04-07  
博主有两个问题请帮下忙哦。
1.是否可以利用Cookie进行登录。遇到验证码的网站很烦,但是如果可以利用cookie进行登录就好了?
2.验证码处理搞好好久都没弄好,我测试的网站是
http://www.zjgsdx.com/bbs/logging.php?action=login
这个验证码怎样才能保存到本地或者有更好的办法解决?

相关推荐

    httpclient绕过登陆验证码直接抓取内部数据

    使用 HttpClient 绕过登录验证码可以实现免登录访问,但是需要注意 Cookie 的路径、域名和过期时间等信息,并选择合适的 Cookie 策略。同时,我们也需要注意.blackhat 的攻击,以保护用户的登录信息。

    java短信验证码实现模拟

    在Java中使用HttpClient模拟POST请求或者GET请求,使用的是信易通的短信平台接口,一般的情况下都是POST请求(post请求安全,可靠,信息不会在地址栏显示出来),然后(看短信平台要求,),调用短信平台提供的接口...

    java实现发送短信验证码功能

    使用的是信易通的短信平台接口,然后在Java中使用HttpClient模拟POST请求或者GET请求(看短信平台要求,一般的情况下都是POST请求),调用短信平台提供的接口(遵循短信平台的接口规范即可)发送短信验证码

    JAVA实现通过手机验证码的注册功能

    使用的是信易通的短信平台接口,然后在Java中使用HttpClient模拟POST请求或者GET请求(看短信平台要求,一般的情况下都是POST请求),调用短信平台提供的接口(遵循短信平台的接口规范即可)发送短信验证码

    Java使用HttpClient和HtmlParser实现的爬虫Demo.zip

    反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等...

    实现短信验证码需要用到的jar包.rar

    1.commons-codec-1.4 2.commons-httpclient-3.1 3.commons-logging-1.1.1 附加 API代码即可实现短信验证功能

    client发送短信验证码(云之讯)

    3、按照SmsUtil中的说明(示例代码)即可实现给特定手机号发送短信验证码 该jar包依赖: <groupId>com.google.code.gson</groupId> <artifactId>gson <version>2.3.1 <groupId>org.apache.httpcomponents ...

    Java-webQQ-登录

    这个是基于WEBQQ 协议的,使用的是HTTPCLIENT,下载的哥们,请去官方下载HTTPCLIENT,这个不是什么模仿QQ,是正的能登录的,俺抓了两天包,要验证码的和不要验证码的都可以运行。这个只是一个案例,登录后什么都干不了,俺...

    commons-logging-1.1.1.jar,commons-httpclient-3.1.jar,commons-codec-1.4.jar

    JAVA实现利用第三方平台发送短信验证码所需jar包

    字符串文件http密码资源文件openoffice图片等工具等

    HttpClientUtil使用httpclient实现post,get,upload,download的工具 HttpUtil使用HttpURLConnection实现post,get,put,delete,upload,download的工具 ImageUtil提供 图片转换为tif格式 和 获取图片类型 ...

    基于Dubbo实现的SOA分布式(没有实现分布式事务)-SpringBoot整合各种组件的JavaWeb脚手架+源代码+文档

    # 该项目骨架集成了以下技术: ...3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

    从零开始开发一个自动抓取教务系统课表等信息并动态显示的安卓课程表APP,原理分析及功能实现完美教程

    之前写过一篇JAVA使用HttpClient模拟登录正方教务系统,爬取学籍信息和课程表成绩等,超详细登录分析和代码注解的教程,在移植到移动平台时候,发现了如下问题: 抓取课表偶尔会不完全,出现全部乱码的情况 ...

    搜索链接Java网络爬虫(蜘蛛)源码-zhizhu

    项目目标 自动化数据收集:自动从互联网上的网站抓取大量数据,减少人工手动操作。...反爬虫策略应对:针对网站的反爬虫策略(如验证码、访问频率限制等),实现相应的应对措施,确保爬虫的稳定运行。

    基于微服务的车票管理系统源码+项目说明+sql数据库.tar

    + 利用Httpclient调用第三方API,利用FastJSON解析响应 + :star:利用Scheduled开启CompletableFuture任务,利用Jsoup每日定期爬取新闻热搜 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的...

    java开源包3

    JOpenID是一个轻量级的OpenID 2.0 Java客户端,仅50KB+(含源代码),允许任何Web网站通过OpenID支持用户直接登录而无需注册,例如Google Account或Yahoo Account。 JActor的文件持久化组件 JFile JFile 是 JActor ...

    java开源包4

    JOpenID是一个轻量级的OpenID 2.0 Java客户端,仅50KB+(含源代码),允许任何Web网站通过OpenID支持用户直接登录而无需注册,例如Google Account或Yahoo Account。 JActor的文件持久化组件 JFile JFile 是 JActor ...

    蜂巢爬虫系统 .zip

    是一套只需要定义XPath,就可实现爬取网站,APP的系统, 支持多种解析方式(XPath,正则表达式),多种下载方式(HttpClient库, PhantomJs, Selenium),多种输出方式(Excel,MongoDB)。 爬虫(Web Crawler)是一种...

    JAVA上百实例源码以及开源项目源代码

    5个目标文件,演示Address EJB的实现,创建一个EJB测试客户端,得到名字上下文,查询jndi名,通过强制转型得到Home接口,getInitialContext()函数返回一个经过初始化的上下文,用client的getHome()函数调用Home接口...

    JAVA上百实例源码以及开源项目

    百度云盘分享 ... Java实现的FTP连接与数据浏览程序,实现实例化可操作的窗口。  部分源代码摘录:  ftpClient = new FtpClient(); //实例化FtpClient对象  String serverAddr=jtfServer.getText();...

Global site tag (gtag.js) - Google Analytics