0 0

Java抓取网页内容100

Java抓取网页内容

现有一国外网站,需要从里面抓取必要的信息。
该网页的结构才有大量的Js生成的,每一次请求都包含大量的参数以及cookie、session信息
采用比较常见的方法,如HttpClient 来模拟cookie总是得不到其请求后响应的正确内容。

有这方面成功经验的 请麻烦帮忙下


问题补充:你好麻烦你帮忙分析下这个网站
http://www.288-563.com/en/?affiliate=365_031965
进去后点击左侧的"Soccer" 数据会更新显示在中间栏
我就想得到中间栏生成的内容

麻烦帮我试试 想想 谢谢

wangqj 写道
这个我做过,用任何一个可以得到cookie的工具都可以的
很简单,你得不到正确的,说明你得到的cookie不对
用Firebug,获取cookie相当简单


ps:js生成页面结构没关系啊,你只要生成后的结构
用htmlparser,很容易分析页面结构


问题补充:哦 不好意思
进去后 要再点击下中间那个大图片(有显示SPORTS)


麻烦 帮忙分析下
wangqj 写道
进去左侧没有Soccer啊

地址发错了吧


问题补充:试试看啊
我试过你说的方法了的




wangqj 写道
http://www.288-563.com/home/

我这没安firebug,应该不难抓,估计中间你点击soccer的时候执行了一个js函数

你用工具可以看到执行的哪个函数,中间带了什么参数,直接拼接成个url就ok了

OO 
2011年1月18日 17:51

5个答案 按时间排序 按投票排序

0 0

http://www.288-563.com/home/

我这没安firebug,应该不难抓,估计中间你点击soccer的时候执行了一个js函数

你用工具可以看到执行的哪个函数,中间带了什么参数,直接拼接成个url就ok了

2011年1月19日 14:36
0 0

进去左侧没有Soccer啊

地址发错了吧

2011年1月19日 10:37
0 0

这个我做过,用任何一个可以得到cookie的工具都可以的
很简单,你得不到正确的,说明你得到的cookie不对
用Firebug,获取cookie相当简单


ps:js生成页面结构没关系啊,你只要生成后的结构
用htmlparser,很容易分析页面结构

2011年1月19日 10:22
0 0

Google Chrome也不赖!先用浏览器登录,然后在Chrome浏览器中查看该网站的Cookie,Copy到程序中,在请求头中set cookie试试

2011年1月19日 08:53
0 0

借助Firefox来验证自己的 cookie模拟内容是否完整

2011年1月18日 23:37

相关推荐

Global site tag (gtag.js) - Google Analytics