`

Heritrix的总体架构

阅读更多
        爬虫hertrix中的关键的几个类是:
1)CrawlOrder
2)CrawlController
3)Frontier链接制造工厂以及BdbFrontier的实现方式
4)多线程的实现(ToeThread和ToePool)
5)处理链和Processer
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics