`
ldd600
  • 浏览: 101819 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
47bb354f-8b5f-3ea6-a206-c7ead38c741c
Hyperic插件开发不完...
浏览量:11078
社区版块
存档分类
最新评论

Java爬虫框架(三)--模块设计之二

 
阅读更多

 6.      Filter

Filter可以对解析好的新Task,进行过滤。



 

7.      Handler

Handler对解析好的内容进行进一步处理,异步化处理和爬取解析。处理主要是将爬取的数据入库和索引。

 

一、        Task队列

Task队列,存放还没有被处理的新任务。



 

二、        Visited

Visited表的判断其实是TaskFilter的一种,只是TaskFilter用了VisitedTable来存储已经爬取过的任务。



 

VisitedTaskFilter:判断Task是否已经被处理过

VisitedTable:存储已经被爬取过的任务

  • 大小: 9.3 KB
  • 大小: 17.5 KB
  • 大小: 15.9 KB
  • 大小: 25.3 KB
分享到:
评论
3 楼 u011506498 2017-06-26  
楼主,能否求源码,924393541@qq.com,多谢!
2 楼 xpf123fly 2015-12-18  
楼主,能否求源码,593829792@qq.com,多谢!
1 楼 haitaohehe 2011-08-18  
期待楼主后续文章...

相关推荐

    Java爬虫框架设计-针对电商网站进行数据爬取、分析、存储、索引的分析与设计.pdf

    6模块.........................6 6.1Scheduler..................6 6.2TaskMaster.................7 6.3Fetcher....................9 6.4Worker.....................10 6.5Parser.....................10 6.6...

    基于java的一款webmagic开源的Java垂直爬虫框架

    webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发 webmagic的核心 webmagic的主要特色: 完全模块化的设计,强大的可扩展性。 核心简单但是涵盖爬虫的全部流程,灵活...

    java爬虫实战项目源码

    这个Java爬虫实战项目源码包含了爬虫框架的基本设计与实现,以及具体爬取网站的实现方法。代码中提供了详细的注释和解释,对于初学者也非常友好。通过这个源码,你可以深入了解Java爬虫的基础知识,学习如何使用Java...

    WebMagic(Java爬虫框架) v0.7.2

    webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

    基于JavaGUI+Web Magic爬虫框架实现的医案采集系统.zip

    网页爬取,即医生提供包含医案文本的URL,指定爬取规则,系统启动爬虫模块从该网站获取医案文本并导入文本编辑区;图片识别,即医生提供病人以往的病历图片,系统启动识别模块自动将图片中的医案文本识别并导入文本...

    一个简单易用的爬虫框架,内置代理管理模块,灵活设置多线程爬取.zip

    爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...

    Java网络爬虫(蜘蛛)源码.zip

    这段Java网络爬虫源码资源是一个功能完善且易于扩展的爬虫框架。它采用了模块化设计,使得用户可以轻松地根据自己的需求进行定制和扩展。源码中包含了网络请求模块、HTML解析模块、数据存储模块以及任务调度模块等多...

    Java爬虫技术框架之Heritrix框架详解

    Heritrix是一个由Java开发的开源Web爬虫系统,用来获取完整的、精确的站点内容的深度复制, 具有强大的可扩展性,运行开发者任意选择或扩展各个组件,实现特定的抓取逻辑。 一、Heritrix介绍 Heritrix采用了模块化的...

    JAVA上百实例源码以及开源项目源代码

     Java二进制IO类与文件复制操作实例,好像是一本书的例子,源代码有的是独立运行的,与同目录下的其它代码文件互不联系,这些代码面向初级、中级Java程序员。 Java访问权限控制源代码 1个目标文件 摘要:Java源码,...

    JAVA上百实例源码以及开源项目

     Java二进制IO类与文件复制操作实例,好像是一本书的例子,源代码有的是独立运行的,与同目录下的其它代码文件互不联系,这些代码面向初级、中级Java程序员。 Java访问权限控制源代码 1个目标文件 摘要:Java源码,...

    毕设项目-基于SpringBoot+mybatis搜索引擎优化的健康问答系统java源码+项目说明.7z

    爬虫模块采用 webmagic 框架 搜索引擎模块采用 luence 框架 数据源采用 DruidDataSource,数据库采用MySQL 项目构建采用maven进行构建 本项目划分出7个模块(module),各模块之间的作用及依赖关系如下: ask-seo: ...

    婚恋网站java源码-AwesomePythonWork-YouNeed-To-See:AwesomePythonWork-YouNeed-T

    婚恋网站java源码很棒的 Python 精选的 Python 框架、库、软件和资源列表。 灵感来自 . 管理面板 管理接口库。 - 您的服务器应得的管理面板。 - 替代的 Django 管理界面(仅供非商业用途免费)。 - Django 管理员的...

    Java源码程序案例分享 100套

    题库及试卷管理模块的...JAVA SMART系统-系统框架设计与开发(...JAVA SMART系统-系统框架设计与开发(...JAVA+access综合测评系统毕业设计(源..java+mysql crm客户关系管理系统JAVA+SQL办公自动化系统(源代码+论......

    webporter:基于 webmagic 的 Java 爬虫应用

    不定时进行调整和补充,需要关注更新的请 watch、star、forkwebporter 的主要特色:基于国产 Java 爬虫框架 webmagic,是众多 Python 爬虫中的一股清流完全模块化的设计,强大的可扩展性核心简单,但是涵盖爬虫应用...

    毕设&课设&项目&实训-无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API.zip

    其设计灵感来源于多个爬虫国内外爬虫框架的总结。采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线… 【项目资源】: 包含前端、后端、移动开发、操作系统、人工...

    66套Java SpringBoot系统源码集合超值划算.zip

    基于SpringBoot,Shiro,Redis,Mybatis,SSO的多模块系统,包含了SSO单点登陆, 通用后台管理,NewBee-mall商城,每日一文等多个模块,支持Shiro与SSO模块的集成,易于上手,学习,二次开发waynboot-sso-master.

    GuozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架.zip

    其设计灵感来源于多个爬虫国内外爬虫框架的总结。采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线… 爬虫(Web Crawler)是一种自动化程序,用于从互联网上...

    goniub是一个java爬虫工具库.zip

    如果你想提高开发爬虫的效率,如果你用selenium老是被网站检测到机器识别,如果你想实现js注入。请你立马用goniub。 开发工具在软件开发生命周期中扮演着至关重要的角色,它们旨在简化和加速从概念设计到产品部署...

    毕业设计:Java项目基于SSM的mysql-汽车销售分析与管理系统带爬虫(源码 + 数据库 + 说明文档)

    第3章 系统总体框架 7 3.1 系统模型结构 7 3.2 系统功能模块简介 7 第4章 系统分析与设计 8 4.1 数据库的分析与设计 8 4.1.1 数据库的概念结构设计 8 4.2 数据库的逻辑结构设计 8 4.3爬虫技术的代码展示 10 4.4汽车...

    spring-boot示例项目

    本项目示例基于spring boot 最新版本(2.1.9)实现,Spring Boot、Spring Cloud 学习示例,将持续更新…… 在基于Spring Boot、Spring ...Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Sprin

Global site tag (gtag.js) - Google Analytics