需求:
实现考勤机网页登陆,取得当天考勤记录,爬取数据,校验当天是否正常打卡
思路:
采用Selenium WebDriver,实现模拟登陆功能,模拟网页操作,出现数据后,获取页面数据并判断。
失败尝试1
刚开始考虑,已爬虫为解决思路,考察jsoup、htmlunit、WebCollector爬虫,后发现现有案例并不支持。
需求是登录系统,而非直接动态或静态页面(如微博),尝试后舍弃该思路。
失败尝试2
思路转变,不应定位爬虫,而应定位为模拟WEB登陆,引用autoit3进行编程,在登录、页面定位成功后,发现无法处理页面弹出问题,尝试多次后放弃。
失败尝试3
autoit3因未解决最后弹出页面问题,改用JAVA模拟登陆,采用selenium进行处理。
拦路虎1,jar包列表
下载地址:http://selenium-release.storage.googleapis.com/index.html
jar包:
selenium-java-2.42.2.jar;
selenium-java-2.42.2-srcs.jar;
辅助jar包:
apache-mime4j-0.6.jar
bsh-1.3.0.jar
cglib-nodep-2.1_3.jar
commons-codec-1.9.jar
commons-collections-3.2.1.jar
commons-exec-1.1.jar
commons-io-2.4.jar
commons-jxpath-1.3.jar
commons-lang3-3.2.1.jar
commons-logging-1.1.3.jar
cssparser-0.9.11.jar
guava-15.0.jar
hamcrest-core-1.3.jar
hamcrest-library-1.3.jar
htmlunit-2.14.jar
htmlunit-core-js-2.14.jar
httpclient-4.3.2.jar
httpcore-4.3.1.jar
httpmime-4.3.2.jar
ini4j-0.5.2.jar
jcommander-1.29.jar
jetty-websocket-8.1.8.jar
jna-3.4.0.jar
jna-platform-3.4.0.jar
json-20080701.jar
junit-dep-4.11.jar
lifan.txt
nekohtml-1.9.20.jar
netty-3.5.7.Final.jar
operadriver-1.5.jar
phantomjsdriver-1.1.0.jar
protobuf-java-2.4.1.jar
sac-1.3.jar
serializer-2.7.1.jar
testng-6.8.5.jar
xalan-2.7.1.jar
xercesImpl-2.11.0.jar
xml-apis-1.4.01.jar
相关推荐
读取excel中关键字,利用webdriver对关键词进行搜索,将搜索到的百度百科词条保存到excel中。
所上传的资源是selenium+python爬取天猫商品,内含源代码+mysql数据库脚本+详细部署视频,另外还对过程中可能出现的问题进行了汇总,对于正在学习这方面的你是一个很好的选择,希望对你有所帮助。
用selenium模拟浏览器爬取租房信息-附件资源
此资源仅供学习用途,当前selenium都是基于无头模式的firefox或者chrome等浏览器进行爬虫抓取,天眼查的反爬技术算是很不错的,仅仅用于个人学习用,并不可以进行大数据的爬取 技术: python selenium 爬虫 模拟登陆 ...
第一部分为获取每条微博具体的url(爬取微博数据),第二部分为根据url爬取微博相关内容及其评论(根据url爬取新闻内容)。 首先说明第一部分。 数据科学基础大作业-爬虫代码使用selenium编写,爬取的是网页版微博+源...
通过selenium模拟浏览器爬取有道翻译结果,此资源仅供学习用途,当前selenium都是基于无头模式的chrome浏览器进行爬虫抓取,
python selenium 模拟淘宝账号密码拉动滑动块模拟登陆抓取商品数据,通过模拟打开浏览器,进入登录页,获取表单位置,输入账号密码,模拟滑动块拉动,点击登录,搜索关键词,搜索,提取商品信息。
主要介绍了Python selenium爬取微信公众号历史文章代码详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
selenium webdriver 爬虫爬取动态网页,里面有chromedriver,windows平台可用,linux需要更换linux的chromedriver。修改代码可爬取其他网站的
selenium对动态加载数据的下拉爬取
用selenium模拟浏览器爬取淘宝订单信息-附件资源
亚马逊评论详情页是动态加载的,不过多折腾,直接用selenium进行爬取;用pandas写入csv文件,解决乱码、无序问题;
此资源仅供学习用途,当前selenium都是基于无头模式的firefox或者chrome等浏览器进行爬虫抓取,天眼查的反爬技术算是很不错的,仅仅用于个人学习用,并不可以进行大数据的爬取 技术: python selenium 爬虫 模拟登陆 ...
通过selenium模拟浏览器爬取有谷歌译结果,此资源仅供学习用途
selenium自动化技术,里面是java文件和jar包,在eclipse里面直接运行,爬取网页节点信息,蛮简单的小例子,仅供入门参考哦
本包内有:1、爬虫代码全程代码注释包教包会,2、Chromedriver插件,3、pandas数据分析代码,4、运行图,5、结果图和爬取的数据, “前程无忧” (NASDAQ:JOBS)是中国具有广泛影响力的人力资源服务供应商,在美国上市...