`
xinklabi
  • 浏览: 1560693 次
  • 性别: Icon_minigender_1
  • 来自: 吉林
文章分类
社区版块
存档分类
最新评论

java模拟浏览器包htmlunit,selenium

 
阅读更多
转自:http://www.blogjava.net/wangxinsh55/archive/2012/01/12/368405.html
 
发现一个很不错的模拟浏览器包htmlunit,它可以直接执行访问网站地址,并执行相应的JavaScript脚本;这个功能对于网站爬虫有很大的帮助,一些网站使用了ajax,如果使用简单的http访问只能抓到原始的html源码,但对于页面内执行的ajax却无法获取;使用这个包后,可以将执行ajax后的html源码一并抓取下来。
网站地址:http://htmlunit.sourceforge.net/

该站点下边还提到了几个相类似的包:HtmlUnit is used as the underlying "browser" by different Open Source tools like Canoo WebTestJWebUnitWebDriverJSFUnitCelerity, ... 


canoo WebTest 看了一下,没太明白是怎么用的,没想太深入了解
jwebunit 是用来做网站测试用的,它整合了JUnit,htmlunit,selenium 包框架;其主要功能是用做白盒测试和压力测试。
webDriver 后来改名为selenium,它整合了htmlunit,火狐浏览器,IE浏览器,opare浏览器驱动。如果使用htmlunitDriver,则是使用htmlunit包来访问站点;如果使用FirefoxDriver则会直接将Firefox浏览器调出来,然后在浏览器上模拟输入文字和其他鼠标键盘事件。

htmlunit包访问网站后,获取到html源码后可以对源码进行修改;而jwebunit,selenium则暂时没有发现修改的功能,只是用来做模拟用户操作的功能。

分享到:
评论

相关推荐

    htmlunit java版无界面浏览器 网页自动登录

    htmlunit java版无界面浏览器 实现网页自动登录利器 官方最新下载 htmlunit 是一款开源的java 页面分析工具,...项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。

    htmlunit模拟cookie登录

    htmlunit 模拟cookie 存取 cookie值登录 如: wsyyuser.xywy.com Cookie c = new Cookie("wsyyuser.xywy.com", "PHPSESSID", Common.getValue("session_id") );

    selenium浏览器driver打包

    整体包括了selenium常用的浏览器driver,有谷歌、火狐、opera、EDGE还有htmlunit,各个系统和版本都有

    jsoup_htmlunit_seleniumWebdriver_jar

    jsoup、htmlunit 、seleniumWebdriver的jar包

    selenium-htmlunit-driver-2.9.0

    selenium-htmlunit-driver-2.9.0jar包 selenium-htmlunit-driver-2.9.0jar包 selenium-htmlunit-driver-2.9.0jar包 selenium-htmlunit-driver-2.9.0jar包

    htmlUnit所需jar包

    htmlUnit所需工具包,htmlUnit,htmlUnit,htmlUnit,htmlUnit,htmlUnit

    htmlunit用到的jar包

    htmlunit用到的jar包htmlunit用到的jar包htmlunit用到的jar包

    selenium htmlunit-2.15

    selenium htmlunit-2.15

    htmlunit2.12及jsoup1.5.2的jar包

    项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过...

    selenium-js-disabled:守夜人,Selenium,htmlunit

    在禁用JS的情况下进行测试的关键是将浏览器名称htmlunit与Seleniumwebdriver一起使用。 该示例使用了测试框架,但应与支持提供浏览器名称的任何测试框架一起使用。 在Chrome浏览器中使用Selenium服务器,但在Fire...

    htmlunit依赖jar包

    htmlunit爬虫工具,Java所需的依赖jar包,凑够50个字符

    java htmlunit-2.14

    包含commons,cssparser,htmlunit,jetty,nekohtml,sac,xml等jar包

    htmlunit-2.25-OSGi.jar包(Java无界面浏览器)官方免费版

    HtmlUnit是一个强大的无界面Java浏览器,是junit的扩展之一,它提供了丰富的API,在读取页面后,您可以有效的使用htmlunit分析页面上的内容,并调用页面、填写表单、点击链接,就像您在“正常”浏览器中所作的一样。...

    java调用浏览器实现百度签到功能

    主要使用的是selenium框架调用浏览器实现的签到功能,非常经典的一个功能! 里面的lib包,被我删除了,因为太大不让传,没办法! lib:自己去百度搜架包进行下载吧 apache-mime4j-0.6.jar bsh-1.3.0.jar cglib-nodep...

    htmlunit-2.41.0-bin 官方包

    htmlunit-2.41.0 官方包 java第三方包

    htmlunit所需要jar包

    htmlunit所需要的所有的jar,亲测可用,包含htmlunit,htmlunit-core-js等等

    htmlunit基本jar包

    16个jar包文件非Maven!亲测可用!不存在jar冲突等问题的。

    htmlunit爬虫.rar

    htmlunit爬虫,基于Javahtmlunit爬虫,模拟浏览器HTTP请求实现对网页信息的抓取,本人经常用的框架,可以爬网上一些数据,进行分析。

    htmlunit依赖的所有jar

    htmlunint 所有依赖的jar。解压导入可直接可用!demo可以看我的博客。

Global site tag (gtag.js) - Google Analytics