`
dannyhz
  • 浏览: 375447 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

网络爬虫需要的知识

 
阅读更多
引用


第一步,入门就是用java自带的HttpURLConnection获取源码,然后用正则匹配就是一个简单的爬虫。
第二步,你会发现很多网站并不能爬到想要的数据,你需要鸟枪换大炮,使用Apache的Httpclient来进行爬,你下载的包里就有官方教程,你会慢慢了解cookie,或者是一些http请求头,ua等等。源码解析使用Jsoup,非常方便。
第三步,httpclient使用熟练后,一个非常适合初学者的框架webmagic,先会用,然后研究源码,看看真正的爬虫是怎样的。

你需要对http协议非常了解,推荐《图解http》

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics