`
企鹅木白
  • 浏览: 32883 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

爬虫工具htmlunit,selemium,beatifulsoup

阅读更多
   需要爬虫,试用了这三种方法,htmlunit和selemium使用的java语言编写,beatifulsoup使用python。
   beatifulSoup爬取页面代码,并可以根据html代码查找到相应标签,但是查找方式比较僵硬,难度较大,然后查了一下其他基于python的方法,说似乎都没有beatifulsoup好用,
   htmlunit是我用了之后感觉最好的一种方法,getById,Tag,attr的方式可以通过标签独有的一些特征针对性的查到,爬取想要的数据,同时可以修改数据请求头,针对令牌法防爬虫的网站。selemium的特点在于模拟浏览器操作,功能类似按键精灵或者java里的Robot,对于一些反爬虫反的比较凶网站的可以考虑。目前支持google和ie浏览器

   目前还没有深入研究各个爬虫工具的效率以及适用性,提醒一下自己,遇到令牌类型的反爬虫,修改htmlunit请求头,cookie和浏览器型号。 (selemium包太大,传不上来...)网上都有
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics