`

jim8757

浏览: 141144 次
性别:
来自: 广州

最近访客更多访客>>

世界杯2009

tangyaham

fengfantasy

examine5191

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

春天好：推荐一个免费好用的云端爬虫开发平台不需要安装环境，云上运行爬虫 ...
网络爬虫反爬虫

JAVA爬虫 WebCollector

博客分类：

网络爬虫

阅读更多

https://github.com/CrawlScript/WebCollector

WebCollector

爬虫简介

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。

爬虫内核：

WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次开发。内核具有很强的扩展性，用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup，可进行精准的网页解析。

DEMO：

用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫（JAVA）

public class ZhihuCrawler extends BreadthCrawler{

    /*visit函数定制访问每个页面时所需进行的操作*/
    @Override
    public void visit(Page page) {
        String question_regex="^http://www.zhihu.com/question/[0-9]+";
        if(Pattern.matches(question_regex, page.url)){
            System.out.println("正在抽取"+page.url);
            /*抽取标题*/
            String title=page.doc.title();
            System.out.println(title);
            /*抽取提问内容*/
            String question=page.doc.select("div[id=zh-question-detail]").text();
            System.out.println(question);

        }
    }

    /*启动爬虫*/
    public static void main(String[] args) throws IOException{  
        ZhihuCrawler crawler=new ZhihuCrawler();
        crawler.addSeed("http://www.zhihu.com/question/21003086");
        crawler.start(5);  
    }


}

分享到：

JAVA程序设计中经常犯的低级错误 | Google开源基于Deep Learning的word2vec工 ...

2014-07-29 15:24
浏览 1700
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

WebCollector+Selenium+Phantomjs: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。爬虫内核： WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行...

网络爬虫webcollector: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。 WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次...

使用Java的WebCollector爬虫框架采集网易云音乐5亿首歌.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

java爬虫webCollection: java 爬虫工具，WebCollector-master.zip 代码开源，欢迎下载

WebCollector2.24所需所有jar包: java类爬虫WebCollector开发所需要的全部jar包，是目前为止最新版本的。WebCollector2.20以上版本有较大改动，新增MetaData，有很多新特性

Webcollector demo: WebCollector 采集代码

WebCollector:WebCollector是一个基于Java的开源网络爬虫框架，提供了一些简单的网页爬取接口: 网络收藏家WebCollector是一个基于Java的开源网络爬虫框架，提供了一些简单的网页爬取接口。

WebCollector：WebCollector是基于Java的开源Web爬虫框架。它提供了一些用于爬网的简单界面，您可以在不到5分钟的时间内设置多线程Web爬虫。: WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面，您可以在不到5分钟的时间内设置多线程Web爬网程序。除了通用的搜寻器框架外，WebCollector还集成了CEPF ，这是Wu等人提出的一种...

webcollector源码2.26: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。本资源是2.26...

WebCollector-2.71.jar: WebCollector所使用的jar包，WebCollector-2.71.jar。WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架（内核），提供精简的的 API，只需少量代码即可实现一个功能强大的爬虫。

WebCollector:WebCollector爬虫框架原始码: #WebCollector WebCollector爬虫框架原始码WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面，您可以在不到5分钟的时间内设置多线程Web爬网程序。 ## Homehttps ## Document ＃＃安装...

WebCollector网络爬虫框架-其他: WebCollector是一个无须配置、便于二次开发的Java爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。WebCollector...

基于WebCollector的新浪微博爬虫及相关登录工具，如新浪微博Cookie获取.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

dataCatcher:使用WebCollector的爬虫！: 在Catcher.java的main方法中配置爬虫参数，包括：线程数量 setThreads(int); 深度设置 start(int); 断点爬取 setResumable(true); 默认为false,每次启动爬虫都会重新爬取，true 从断点处继续爬取。搭建环境建议...

基于SSM实现的招聘考试系统试题爬取通过WebCollector爬虫框架网上爬取试题+源代码+文档说明: 试题爬取通过WebCollector爬虫框架网上爬取试题，通过Lucene全文搜索试题，通过遗传算法生成试卷 ## 项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合...

Java-Carwler-Technology:网络数据采集技术—Java网络爬虫 (书稿完整代码，涉及网络爬虫的各种技术和知识点): Java网络爬虫书中的代码，另外本人的介绍了大量的网络爬虫知识，有兴趣的可以学习。为及时更正书中的不恰当的内容，笔者在CSDN博客中创建了一个页面：读者可以将书中的问题，以评论的方式反馈给我，笔者针对...

爬虫内核: 爬虫内核

通过网络爬虫采集大数据: 网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来，将其...Java 网络爬虫工具，如 Crawler4j、WebMagic、WebCollector。非 Java 网络爬虫工具，如

基于SSM实现的招聘考试系统。试题爬取通过WebCollector爬虫框架网上爬取试题，通过Lucene全文搜索试题.zip: 包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。【项目质量】：所有源码都经过严格测试，可以直接运行。功能在确认正常工作后才上传。【适用人群】...

webCollector-:这个写天，研究了一下webcollector这个爬虫框架，其中有一个爬取http: 这个写天，研究了一下webcollector这个爬虫框架，其中有一个爬取 (推酷)的例子和一个爬取代理ip的例子，其中有数据库和图片的爬取多线程爬取 ExecutorService pool = Executors.newFixedThreadPool(3); for(int i=0...

Global site tag (gtag.js) - Google Analytics