最新文章列表

Nutch源代码解读--2

Nutch0.9代码详细分析之2 主要分析网页爬取之后的页面处理       前一次主要介绍了Nutch爬取网页的流程,在爬取完网页后返回一个ProtocalOutput对象,对爬行回来的信息进行了封装,包括ProtocalStatus返回的HTTP状态码,Content网页的主体内容等信息信息。在Fetcher中,如果我们继续往下看,会看到nutch根据不同的ProtocalStatus返回的状 ...
wwkevin811 评论(0) 有1480人浏览 2012-04-30 18:32

最近博客热门TAG

Java(141745) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics