0 0

heritrix,爬虫,绕过登录验证10

heritrix爬虫的时候,比如公司的项目都是带用户登陆的,heritrix怎么实现绕过去登录那?
目前的想法是:
1.模拟登录,传递cookie的方式。
2.开个后门,在爬的时候不进行验证。


第一种方式需要修改源码,比较费劲。第二种方式需要修改原有的项目,也不太理想。
不知道大侠们有没有好的思路或者实现方式?
问题补充
另外,heritrix1.14版本中的order.xml可以配置登录的信息,貌似不太好使。
2013年5月24日 09:03
目前还没有答案

相关推荐

Global site tag (gtag.js) - Google Analytics