- 浏览: 3509564 次
- 性别:
- 来自: 杭州
文章分类
- 全部博客 (1491)
- Hibernate (28)
- spring (37)
- struts2 (19)
- jsp (12)
- servlet (2)
- mysql (24)
- tomcat (3)
- weblogic (1)
- ajax (36)
- jquery (47)
- html (43)
- JS (32)
- ibatis (0)
- DWR (3)
- EXTJS (43)
- Linux (15)
- Maven (3)
- python (8)
- 其他 (8)
- JAVASE (6)
- java javase string (0)
- JAVA 语法 (3)
- juddiv3 (15)
- Mule (1)
- jquery easyui (2)
- mule esb (1)
- java (644)
- log4j (4)
- weka (12)
- android (257)
- web services (4)
- PHP (1)
- 算法 (18)
- 数据结构 算法 (7)
- 数据挖掘 (4)
- 期刊 (6)
- 面试 (5)
- C++ (1)
- 论文 (10)
- 工作 (1)
- 数据结构 (6)
- JAVA配置 (1)
- JAVA垃圾回收 (2)
- SVM (13)
- web st (1)
- jvm (7)
- weka libsvm (1)
- weka屈伟 (1)
- job (2)
- 排序 算法 面试 (3)
- spss (2)
- 搜索引擎 (6)
- java 爬虫 (6)
- 分布式 (1)
- data ming (1)
- eclipse (6)
- 正则表达式 (1)
- 分词器 (2)
- 张孝祥 (1)
- solr (3)
- nutch (1)
- 爬虫 (4)
- lucene (3)
- 狗日的腾讯 (1)
- 我的收藏网址 (13)
- 网络 (1)
- java 数据结构 (22)
- ACM (7)
- jboss (0)
- 大纸 (10)
- maven2 (0)
- elipse (0)
- SVN使用 (2)
- office (1)
- .net (14)
- extjs4 (2)
- zhaopin (0)
- C (2)
- spring mvc (5)
- JPA (9)
- iphone (3)
- css (3)
- 前端框架 (2)
- jui (1)
- dwz (1)
- joomla (1)
- im (1)
- web (2)
- 1 (0)
- 移动UI (1)
- java (1)
- jsoup (1)
- 管理模板 (2)
- javajava (1)
- kali (7)
- 单片机 (1)
- 嵌入式 (1)
- mybatis (2)
- layui (7)
- asp (12)
- asp.net (1)
- sql (1)
- c# (4)
- andorid (1)
- 地价 (1)
- yihuo (1)
- oracle (1)
最新评论
-
endual:
https://blog.csdn.net/chenxbxh2 ...
IE6 bug -
ice86rain:
你好,ES跑起来了吗?我的在tomcat启动时卡在这里Hibe ...
ES架构技术介绍 -
TopLongMan:
...
java public ,protect,friendly,private的方法权限(转) -
贝塔ZQ:
java实现操作word中的表格内容,用插件实现的话,可以试试 ...
java 读取 doc poi读取word中的表格(转) -
ysj570440569:
Maven多模块spring + springMVC + JP ...
Spring+SpringMVC+JPA
httpClient 带验证码登录实现
博客分类: HttpClient
java
httpclient
在实现之前,需要注意一个问题。关于Cookie,如果能很好跟踪上到Cookie,基本上,实现都是小事一碟。
在网络上,有提到过验证码老是提示有错。貌似思路流程都是正确的。兄弟,如果你在半个小时还没搞清楚,先休息一下,听听歌,打打游戏。再想过。
推断为什么会出现这种问题。问题是你登录验证码页面(jsp,aspx),实际上就是一个会话或者Cookie记录。此时,你有去连接登录页面,有可能已经重新生成一个新的验证码啦。你用了之前的验证码,指定会提示验证码错误。
在这里,我只能说一下我遇到的这种问题的解决办法。如果还有其他情况,可以私下M我,我们继续过。
一、抓取一个农业网站思路步骤如下:
1、首先需要获取验证码页面,把它以图片的格式保证下来。(图片格式需要通过抓包的工具查看。如:httpWatch)并跟踪到的cookie保存下来。cookie必须要跟抓包工具看到的cookie一致。
2、提交登录页面所需要的字段和验证码,字段尽可能全部提交上去。
二、代码实现。
Java代码
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import org.apache.commons.httpclient.Cookie;
import org.apache.commons.httpclient.Header;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
import org.apache.commons.httpclient.NameValuePair;
import org.apache.commons.httpclient.cookie.CookiePolicy;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.methods.PostMethod;
import org.apache.commons.httpclient.params.DefaultHttpParams;
public class __10086 {
public void test() throws HttpException, IOException{
String url = "http://12582.10086.cn/user/login/verifycode.aspx";
HttpClient httpClient = new HttpClient();
DefaultHttpParams.getDefaultParams().setParameter("http.protocol.cookie-policy", CookiePolicy.BROWSER_COMPATIBILITY);
GetMethod getMethod = new GetMethod("http://12582.10086.cn/user/login/verifycode.aspx");
getMethod.setRequestHeader("Host", "12582.10086.cn");
getMethod.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.2; rv:5.0.1) Gecko/20100101 Firefox/5.0.1");
getMethod.setRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
getMethod.setRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
getMethod.setRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
getMethod.setRequestHeader("Connection", "keep-alive");
// getMethod.setRequestHeader("Cookie", "Hm_lvt_6e06bb5a029d6c5473951d1079638828=1328777184942; Hm_lvt_e64244e1e591d0337e17a12b714c0996=1328777186856; WT_FPC=id=183.16.35.230-1530895312.30204303:lv=1328174810886:ss=1328174810886; ASP.NET_SessionId=gj25p555exiqjd45kdcqoq55; BIGipServernxt-wz=369797312.20480.0000; Hm_lpvt_6e06bb5a029d6c5473951d1079638828=1328777184942; Hm_lpvt_e64244e1e591d0337e17a12b714c0996=1328777186856; .12582portals=4CF97704261E34DBE12913CBA18211005E960282A771D94FF3709BAFC99610A7397BE8293ADB2E876A0A7380AC4A158016419745F27511D6E79F82A408D009519D6DDFE18A578E5CFC5F48025C75B33B6EBD43953A7DB05AEBAAB856E0AA29112818B4910350AADACD2012F5DE56297B1F6622ED7F4959D31E19C474E48F7773D7966437");
getMethod.setRequestHeader("Cache-Control", "max-age=0");
int code = httpClient.executeMethod(getMethod);
Header header = getMethod.getResponseHeader("Set-cookie");
System.out.println(header.getValue());
String headerCookie = header.getValue();
String SessionId = headerCookie.substring(headerCookie.indexOf("NET_SessionId=") + "NET_SessionId=".length(), headerCookie.indexOf(";"));
System.out.println(SessionId);
String BIGipServernxt = headerCookie.substring(headerCookie.indexOf("BIGipServernxt-wz=") + "BIGipServernxt-wz=".length(), headerCookie.length());
BIGipServernxt = BIGipServernxt.substring(0, BIGipServernxt.indexOf(";"));
StringBuffer sb = new StringBuffer();
sb.append("Hm_lvt_6e06bb5a029d6c5473951d1079638828=1328778307106; ");
sb.append("Hm_lvt_e64244e1e591d0337e17a12b714c0996=1328778308090; ");
sb.append("WT_FPC=id=183.16.35.230-1530895312.30204303:lv=1328174810886:ss=1328174810886; ");
sb.append("ASP.NET_SessionId=").append(SessionId).append("; ");
sb.append("BIGipServernxt-wz=").append(BIGipServernxt).append("; ");
sb.append("Hm_lpvt_6e06bb5a029d6c5473951d1079638828=1328778307106; ");
sb.append("Hm_lpvt_e64244e1e591d0337e17a12b714c0996=1328778308090");
System.out.println(sb.toString());
String ValidCode = savegif(getMethod);
getMethod.releaseConnection();
// 第二次链接
httpClient.getHostConfiguration().setHost("12582.10086.cn", 80, "http");
PostMethod method = getPostMethod(ValidCode);
method.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.2; rv:5.0.1) Gecko/20100101 Firefox/5.0.1");
method.setRequestHeader("Host", "12582.10086.cn");
method.setRequestHeader("Accept", "application/json, text/javascript, */*");
method.setRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
// method.setRequestHeader("Accept-Encoding", "gzip, deflate");
method.setRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
method.setRequestHeader("Connection", "keep-alive");
method.setRequestHeader("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8");
method.setRequestHeader("X-Requested-With", "XMLHttpRequest");
method.setRequestHeader("Referer", "http://12582.10086.cn/user/login/");
method.setRequestHeader("Cookie", sb.toString());
httpClient.executeMethod(method);
System.out.println(method.getStatusCode());
System.out.println(method.getResponseBodyAsString());
// 第三次链接
Header header1 = method.getResponseHeader("Set-cookie");
System.out.println("dd=" + header1.getValue());
sb.append("; " + header1.getValue());
Cookie[] cookies = httpClient.getState().getCookies();
method.releaseConnection();
String my = "http://12582.10086.cn/my";
System.out.println(sb.toString());
getMethod = new GetMethod(my);
getMethod.setRequestHeader("Host", "12582.10086.cn");
getMethod.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.2; rv:5.0.1) Gecko/20100101 Firefox/5.0.1");
getMethod.setRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
getMethod.setRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
getMethod.setRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
getMethod.setRequestHeader("Connection", "keep-alive");
getMethod.setRequestHeader("Referer", "http://12582.10086.cn/user/login");
getMethod.setRequestHeader("Cookie", sb.toString());
code = httpClient.executeMethod(getMethod);
System.out.println(getMethod.getStatusCode());
System.out.println(getMethod.getResponseBodyAsString());
File storeFile = new File("c:/2008sohu.html");
FileOutputStream output = new FileOutputStream(storeFile);
//得到网络资源的字节数组,并写入文件
output.write(getMethod.getResponseBody());
output.close();
}
public String savegif(GetMethod getMethod) throws IOException {
File storeFile = new File("c:/2008sohu.gif");
FileOutputStream output = new FileOutputStream(storeFile);
//得到网络资源的字节数组,并写入文件
output.write(getMethod.getResponseBody());
output.close();
InputStreamReader is = new InputStreamReader(System.in);
BufferedReader br = new BufferedReader(is);
String ValidCode = "";
try {
ValidCode = br.readLine();
br.close();
is.close();
} catch(Exception e) {
e.printStackTrace();
}
return ValidCode;
}
private PostMethod getPostMethod(String ValidCode) {
PostMethod post = new PostMethod("/ajax/postlogin");
NameValuePair[] simcard = {
new NameValuePair("email", "XXX"),
new NameValuePair("password", "XXX"),
new NameValuePair("ValidCode", ValidCode),
new NameValuePair("rme", "0"),
};
post.setRequestBody(simcard);
return post;
}
public static void main(String args[]) {
__10086 _10086 = new __10086();
try {
_10086.test();
} catch (HttpException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
来源于:http://www.agrilink.cn/
相关推荐
在Java中使用HttpClient模拟POST请求或者GET请求,使用的是信易通的短信平台接口,一般的情况下都是POST请求(post请求安全,可靠,信息不会在地址栏显示出来),然后(看短信平台要求,),调用短信平台提供的接口...
使用的是信易通的短信平台接口,然后在Java中使用HttpClient模拟POST请求或者GET请求(看短信平台要求,一般的情况下都是POST请求),调用短信平台提供的接口(遵循短信平台的接口规范即可)发送短信验证码
使用的是信易通的短信平台接口,然后在Java中使用HttpClient模拟POST请求或者GET请求(看短信平台要求,一般的情况下都是POST请求),调用短信平台提供的接口(遵循短信平台的接口规范即可)发送短信验证码
反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等...
1.commons-codec-1.4 2.commons-httpclient-3.1 3.commons-logging-1.1.1 附加 API代码即可实现短信验证功能
3、按照SmsUtil中的说明(示例代码)即可实现给特定手机号发送短信验证码 该jar包依赖: <groupId>com.google.code.gson</groupId> <artifactId>gson <version>2.3.1 <groupId>org.apache.httpcomponents ...
这个是基于WEBQQ 协议的,使用的是HTTPCLIENT,下载的哥们,请去官方下载HTTPCLIENT,这个不是什么模仿QQ,是正的能登录的,俺抓了两天包,要验证码的和不要验证码的都可以运行。这个只是一个案例,登录后什么都干不了,俺...
JAVA实现利用第三方平台发送短信验证码所需jar包
HttpClientUtil使用httpclient实现post,get,upload,download的工具 HttpUtil使用HttpURLConnection实现post,get,put,delete,upload,download的工具 ImageUtil提供 图片转换为tif格式 和 获取图片类型 ...
# 该项目骨架集成了以下技术: ...3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
之前写过一篇JAVA使用HttpClient模拟登录正方教务系统,爬取学籍信息和课程表成绩等,超详细登录分析和代码注解的教程,在移植到移动平台时候,发现了如下问题: 抓取课表偶尔会不完全,出现全部乱码的情况 ...
项目目标 自动化数据收集:自动从互联网上的网站抓取大量数据,减少人工手动操作。...反爬虫策略应对:针对网站的反爬虫策略(如验证码、访问频率限制等),实现相应的应对措施,确保爬虫的稳定运行。
+ 利用Httpclient调用第三方API,利用FastJSON解析响应 + :star:利用Scheduled开启CompletableFuture任务,利用Jsoup每日定期爬取新闻热搜 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的...
JOpenID是一个轻量级的OpenID 2.0 Java客户端,仅50KB+(含源代码),允许任何Web网站通过OpenID支持用户直接登录而无需注册,例如Google Account或Yahoo Account。 JActor的文件持久化组件 JFile JFile 是 JActor ...
JOpenID是一个轻量级的OpenID 2.0 Java客户端,仅50KB+(含源代码),允许任何Web网站通过OpenID支持用户直接登录而无需注册,例如Google Account或Yahoo Account。 JActor的文件持久化组件 JFile JFile 是 JActor ...
是一套只需要定义XPath,就可实现爬取网站,APP的系统, 支持多种解析方式(XPath,正则表达式),多种下载方式(HttpClient库, PhantomJs, Selenium),多种输出方式(Excel,MongoDB)。 爬虫(Web Crawler)是一种...
5个目标文件,演示Address EJB的实现,创建一个EJB测试客户端,得到名字上下文,查询jndi名,通过强制转型得到Home接口,getInitialContext()函数返回一个经过初始化的上下文,用client的getHome()函数调用Home接口...
百度云盘分享 ... Java实现的FTP连接与数据浏览程序,实现实例化可操作的窗口。 部分源代码摘录: ftpClient = new FtpClient(); //实例化FtpClient对象 String serverAddr=jtfServer.getText();...
使用httpclient,jsoup,dom4j,json-lib,SWT创建的可下载小说的网络爬虫项目。 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫...