需要爬虫,试用了这三种方法,htmlunit和selemium使用的java语言编写,beatifulsoup使用python。
beatifulSoup爬取页面代码,并可以根据html代码查找到相应标签,但是查找方式比较僵硬,难度较大,然后查了一下其他基于python的方法,说似乎都没有beatifulsoup好用,
htmlunit是我用了之后感觉最好的一种方法,getById,Tag,attr的方式可以通过标签独有的一些特征针对性的查到,爬取想要的数据,同时可以修改数据请求头,针对令牌法防爬虫的网站。selemium的特点在于模拟浏览器操作,功能类似按键精灵或者java里的Robot,对于一些反爬虫反的比较凶网站的可以考虑。目前支持google和ie浏览器
目前还没有深入研究各个爬虫工具的效率以及适用性,提醒一下自己,遇到令牌类型的反爬虫,修改htmlunit请求头,cookie和浏览器型号。 (selemium包太大,传不上来...)网上都有
分享到:
相关推荐
针对 httpclient4.* 绕验证码获取公司信息 包括 jsoup网页信息的爬虫及htmlUnit对动态网站信息的抓取
htmlunit爬虫,基于Javahtmlunit爬虫,模拟浏览器HTTP请求实现对网页信息的抓取,本人经常用的框架,可以爬网上一些数据,进行分析。
高效的java爬虫,内附代码 sql数据表 ,main方法启动。jdk1.8. 有htmlunit的各种获取标签的方法。避免了jsoup无法抓取js代码生成的数据内容的弊端。避免了client无法一次性获取大量信息的弊端。有能获取静态页面形成...
HtmlUnit 爬虫Demo,有最全面的方法
htmlunit网络爬虫jar包
htmlunit爬虫技术jar包
Nutch Htmlunit Plugin 重要说明: 当前项目基于Nutch 1.X系列已停止更新维护,转向Nutch 2.x系列版本的新项目:http://www.oschina.net/p/nutch-ajax 项目简介 基于Apache Nutch 1.8和Htmlunit...
htmlunit爬虫工具,Java所需的依赖jar包,凑够50个字符
今天小编就为大家分享一篇关于JAVA使用HtmlUnit爬虫工具模拟登陆CSDN案例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
爬虫技术htmlunit可屏蔽javascript。htmlunit可以完美获取htmltable中的数据。
htmlUnit所需工具包,htmlUnit,htmlUnit,htmlUnit,htmlUnit,htmlUnit
htmlunit jar zip 2.23 用于html爬虫
使用htmlunit技术对网站上的数据进行抽取分析等
htmlunit 网络爬虫,及其依赖jar包。以及实例 没有积分,赚点积分,:-D
htmlunit 模拟cookie 存取 cookie值登录 如: wsyyuser.xywy.com Cookie c = new Cookie("wsyyuser.xywy.com", "PHPSESSID", Common.getValue("session_id") );
java爬虫所需要包,必须要1.8级以上jdk编译。htmlunit
网页的单元测试工具,内含htmlunit需要的jar
htmlunit的api与相关jar包 htmlunit是一款Java爬虫方面的工具,能快速的解析HTML页面,支持执行js代码加载页面