爬虫工具htmlunit，selemium，beatifulsoup -

企鹅木白

浏览: 32883 次
性别:

最近访客更多访客>>

aa541753716

碧云天_xll

xuyexw

fuzm

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

爬虫工具htmlunit，selemium，beatifulsoup

博客分类：

java
python

java html

   需要爬虫，试用了这三种方法，htmlunit和selemium使用的java语言编写，beatifulsoup使用python。
   beatifulSoup爬取页面代码，并可以根据html代码查找到相应标签，但是查找方式比较僵硬，难度较大，然后查了一下其他基于python的方法，说似乎都没有beatifulsoup好用，
   htmlunit是我用了之后感觉最好的一种方法，getById，Tag，attr的方式可以通过标签独有的一些特征针对性的查到，爬取想要的数据，同时可以修改数据请求头，针对令牌法防爬虫的网站。selemium的特点在于模拟浏览器操作，功能类似按键精灵或者java里的Robot，对于一些反爬虫反的比较凶网站的可以考虑。目前支持google和ie浏览器

   目前还没有深入研究各个爬虫工具的效率以及适用性，提醒一下自己，遇到令牌类型的反爬虫，修改htmlunit请求头，cookie和浏览器型号。 (selemium包太大，传不上来...)网上都有

htmlunit.zip (9.9 MB)
下载次数: 0

chromedriver_win32.zip (2.7 MB)
下载次数: 0

IEDriverServer_x64_2.42.0.zip (910.8 KB)
下载次数: 0

分享到：

This Android SDK requires Android Develo ... | 删除lib中的jar包出错的解决方法

2017-07-28 10:25
浏览 982
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

爬虫工具htmlunit，selemium，beatifulsoup

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

爬虫工具htmlunit，selemium，beatifulsoup

评论

发表评论

相关推荐

ngrok初使用

Tensorflow-GPU在window环境下安装历程

哈工大NLP处理工具pyltp安装历程

python35安装scrapy

python解决SNIMissingWarning和InsecurePlatformWarning警告

python27与python35并存

多线程：打砖块的初步想法

最近访客更多访客>>