https://github.com/CrawlScript/WebCollector
WebCollector
爬虫简介
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。
爬虫内核:
WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。
DEMO:
用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
public class ZhihuCrawler extends BreadthCrawler{
/*visit函数定制访问每个页面时所需进行的操作*/
@Override
public void visit(Page page) {
String question_regex="^http://www.zhihu.com/question/[0-9]+";
if(Pattern.matches(question_regex, page.url)){
System.out.println("正在抽取"+page.url);
/*抽取标题*/
String title=page.doc.title();
System.out.println(title);
/*抽取提问内容*/
String question=page.doc.select("div[id=zh-question-detail]").text();
System.out.println(question);
}
}
/*启动爬虫*/
public static void main(String[] args) throws IOException{
ZhihuCrawler crawler=new ZhihuCrawler();
crawler.addSeed("http://www.zhihu.com/question/21003086");
crawler.start(5);
}
}
相关推荐
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行...
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次...
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...
java 爬虫工具,WebCollector-master.zip 代码开源,欢迎下载
java类爬虫WebCollector开发所需要的全部jar包,是目前为止最新版本的。WebCollector2.20以上版本有较大改动,新增MetaData,有很多新特性
WebCollector 采集代码
网络收藏家WebCollector是一个基于Java的开源网络爬虫框架,提供了一些简单的网页爬取接口。
WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面,您可以在不到5分钟的时间内设置多线程Web爬网程序。 除了通用的搜寻器框架外,WebCollector还集成了CEPF ,这是Wu等人提出的一种...
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。 本资源是2.26...
WebCollector所使用的jar包,WebCollector-2.71.jar。WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架(内核),提供精简的的 API,只需少量代码即可实现一个功能强大的爬虫。
#WebCollector WebCollector爬虫框架原始码WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面,您可以在不到5分钟的时间内设置多线程Web爬网程序。 ## Homehttps ## Document ##安装...
WebCollector是一个无须配置、便于二次开发的Java爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。WebCollector...
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...
在Catcher.java的main方法中配置爬虫参数,包括: 线程数量 setThreads(int); 深度设置 start(int); 断点爬取 setResumable(true); 默认为false,每次启动爬虫都会重新爬取,true 从断点处继续爬取。 搭建环境 建议...
试题爬取通过WebCollector爬虫框架网上爬取试题,通过Lucene全文搜索试题,通过遗传算法生成试卷 ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合...
Java网络爬虫 书中的代码,另外本人的介绍了大量的网络爬虫知识,有兴趣的可以学习。 为及时更正书中的不恰当的内容,笔者在CSDN博客中创建了一个页面: 读者可以将书中的问题,以评论的方式反馈给我,笔者针对...
爬虫内核
网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其...Java 网络爬虫工具,如 Crawler4j、WebMagic、WebCollector。 非 Java 网络爬虫工具,如
包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】...
这个写天,研究了一下webcollector这个爬虫框架,其中有一个爬取 (推酷)的例子和一个爬取代理ip的例子,其中有数据库和图片的爬取 多线程爬取 ExecutorService pool = Executors.newFixedThreadPool(3); for(int i=0...