`
j2eetop
  • 浏览: 60427 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

TinySpider开源喽

 
阅读更多
TinySpider是一个基于Tiny HtmlParser的网络数据抓取框架。 Maven引用坐标:
?
1
2
3
4
5
<dependency>
< groupId>org.tinygroup</groupId>
< artifactId>tinyspider</artifactId>
< version>0.0.12</version>
< /dependency>


网络爬虫,一般用在全文检索或内容获取上面。


Tiny框架对此也做了有限的支持,虽然功能不多,但是想做全文检索或从网页上获取数据也是非常方便的。
框架特性
  • 强大的节点过滤能力
  • 支持post与get两种数据提交方式
  • 避免网页重复处理功能
  • 支持多站点内容抓取功能
  • 较强的Html容错处理
框架设计 网络爬虫 ?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
public interface Spinder {
/**
* 添加站点访问器
*
* @param siteVisitor
*/
void addSiteVisitor(SiteVisitor siteVisitor);


/**
* 添加监视器
*
* @param watcher
*/
void addWatcher(Watcher watcher);


/**
* 处理url
*
* @param url
*/
void processUrl(String url);


/**
* 处理url
* @param url
* @param parameter
*/
void processUrl(String url, Map<String, Object> parameter);


/**
* 设置URL仓库
*
* @param urlRepository
*/
void setUrlRepository(UrlRepository urlRepository);
}


一个爬虫,至少需要包含一个站点访问器,站点访问器用于对URL进行访问。如果没有匹配的站点访问器,URL将被忽略,不做继续处理。
一个爬虫至少需要包含一个监视器,监视器用于对URL中的内容进行过滤,并对命中的节点进行处理。如果没有监视器,爬虫爬回的内容就没有任何价值。
一个爬虫至少需要一个Url仓库,Url仓库用于对ur进行判断,是否已经抓取并处理过。如果没有url仓库,将无法判断url是否处理过,在非常多的时候,会造成死循环,无法退出。
当然,一个爬虫,也必须能够对url进行处理。
网站访问者 由于一个爬虫可以有多个站点访问器,因此,需要有isMatch方法告诉爬虫是否应该由自己进行处理。
访问方式,可以设置是通过get还是post方式获取数据。
URL仓库 ?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
public interface UrlRepository {
/**
* 返回url是否已经在仓库中存在
*
* @param url
* @return
*/
boolean isExist(String url);


/**
* 返回url是否已经在仓库中存在,带有参数
*
* @param url
* @param parameter
* @return
*/
boolean isExist(String url, Map<String, Object> parameter);


/**
* 如果不存在,则放放,如果已经存在,则替换
*
* @param url
* @param content
*/
void putUrlWithContent(String url, String content);


/**
* 如果不存在,则放放,如果已经存在,则替换
*
* @param url
* @param parameter
* @param content
*/
void putUrlWithContent(String url, Map<String, Object> parameter,
String content);


/**
* 如果存在,则返回内容;如果不存在,则抛出运行时异常
*
* @param url
* @return
*/
String getContent(String url);


/**
* 如果存在,则返回内容;如果不存在,则抛出运行时异常
*
* @param url
* @param parameter
* @return
*/
String getContent(String url, Map<String, Object> parameter);
}


url仓库用于对url及其内容进行管理。由于方法都简单明了,因此不做更多介绍。
监视器 ?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
public interface Watcher {
/**
* 设置节点过滤器
*
* @param filter
*/
void setNodeFilter(NodeFilter<HtmlNode> filter);


/**
* 获取节点过滤器
*
* @return
*/
NodeFilter<HtmlNode> getNodeFilter();


/**
* 添加处理器
*
* @param processor
*/
void addProcessor(Processor processor);


/**
* 获取处理器列表
*
* @return
*/
List<Processor> getProcessorList();
}


一个监视器,必须一个节点过滤器,但是可以有多个处理器。
处理器 ?
1
2
3
4
5
6
7
8
public interface Processor {
/**
* 处理节点
*
* @param node
*/
void process(HtmlNode node);
}


处理器非常简单, 就是对命中的节点进行处理即可。
示例 通过访问[http://www.oschina.net/question?catalog=1]可以看到,里面有许多技术问答的问题。
下面我们就来编写一段程序来把这些标题打出来:
编写爬虫
1
2
3
4
5
6
7
8
9
10
11
public static void main(String[] args) {
Spinder spinder = new SpinderImpl();
Watcher watcher = new WatcherImpl();
watcher.addProcessor(new PrintOsChinaProcessor());
QuickNameFilter<HtmlNode> nodeFilter = new QuickNameFilter<HtmlNode>();
nodeFilter.setNodeName("div");
nodeFilter.setIncludeAttribute("class", "qbody");
watcher.setNodeFilter(nodeFilter);
spinder.addWatcher(watcher);
spinder.processUrl("http://www.oschina.net/question?catalog=1");
}


编写处理器
1
2
3
4
5
6
7
8
9
10
11
public class PrintOsChinaProcessor implements Processor {
public void process(HtmlNode node) {
FastNameFilter<HtmlNode> filter = new FastNameFilter<HtmlNode>(node);
filter.setNodeName("h2");
filter.setIncludeNode("a");
HtmlNode h3 = filter.findNode();
if (h3 != null) {
System.out.println(h3.getSubNode("a").getContent());
}
}
}


运行结果 输出结果可能与结果不相同,因为数据是一直在变化的。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
约瑟夫环问题,一段代码求讲解
求推荐一款分享,回复的前端开源js
MySQL什么情况使用MyISAM,什么时候使用InnoDB?
phpstorm中使用搜狗输入中文出现乱行问题怎样解决?
Android中如何实现快播中娱乐风向标的效果
使用java做手机后台开发!
Chrome 29的alert对话框好漂亮,有木有啊有木有
Eclipse+ADT+Android环境配置问题
关于android holderview的疑惑
蛋疼从一个公司到另外一个公司都是一个人开发 有木有
wsunit 官方访问不了
android求大神给我看看什么问题
关于Hibernate search 查询结果与数据库不相符的问题
求推荐Oracle好的书籍或PDF
关于"记事本"的 "自动换行" 的实现
swing在线html文本编辑器
android下网络阻塞问题
文件上线系统该如何做(代码上线)
ztree节点设置成check多选框的时候如何只获取叶节点,不要其他节点
怎么设置上传的图片不自动压缩
js 正则表达式问题
eclipse 经常loading descriptor for XXX ,然后卡死
关于android开发xml显示问题
RMI远程对象是共享的吧?
参与开源项目如何进行文档编写
php如何以文件图标的形式列出服务器上的所有文件?
php中一个简单的问题?请帮助解决一下,菜鸟
请教 solr query分词查询,结果为空的问题
这段代码有问题吗,怎么我运行报错?
jquery mobile 页面中切换闪屏问题
你帮我改好,我给你讲个笑话可好TUT
asp.net问题:Js如何获取cookie中的值?
android电话拦截并处理
iis7 下 php 如何显示报错?
安装virtualbox的时候提示要安装通用串行总线控制器,这个要安装吗?
API获取新浪微博消息
工厂该不该有默认行为
如何处理开发过程中遗留无用的代码
ireport 设计时报表模板时,无法使用sybase驱动com.sybase.jdbc3.jdbc.SybDriver?
关于 使用druid后的一些问题.


小结 从示例可以看出,要从网页里获取数据,确实是非常容易的一件事情,只寥寥几行(20行左右),就采集出了我们想要的数据,要想抓出更多的数据,只要逐层细化分析即可。
分享到:
评论

相关推荐

    tinyspiderEx:tinyspider的扩展

    tinyspiderExtinyspider的扩展

    node-v5.1.1-linux-x64.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    基于Android+Java的 AES 加密算法分析.zip

    Android是一种基于Linux内核(不包含GNU组件)的自由及开放源代码的移动操作系统,主要应用于移动设备,如智能手机和平板电脑。该系统最初由安迪·鲁宾开发,后被Google公司收购并注资,随后与多家硬件制造商、软件开发商及电信营运商共同研发改良。 Android操作系统的特点包括: 开放源代码:Android系统采用开放源代码模式,允许开发者自由访问、修改和定制操作系统,这促进了技术的创新和发展,使得Android系统具有高度的灵活性和可定制性。 多任务处理:Android允许用户同时运行多个应用程序,并且可以轻松地在不同应用程序之间切换,提高了效率和便利性。 丰富的应用生态系统:Android系统拥有庞大的应用程序生态系统,用户可以从Google Play商店或其他第三方应用市场下载和安装各种各样的应用程序,满足各种需求。 可定制性:Android操作系统可以根据用户的个人喜好进行定制,用户可以更改主题、小部件和图标等,以使其界面更符合个人风格和偏好。 多种设备支持:Android操作系统可以运行在多种不同类型的设备上,包括手机、平板电脑、智能电视、汽车导航系统等。 此外,Android系统还有一些常见的问题,如应用崩溃、电池耗电过快、Wi-Fi连接问题、存储空间不足、更新问题等。针对这些问题,用户可以尝试一些基本的解决方法,如清除应用缓存和数据、降低屏幕亮度、关闭没有使用的连接和传感器、限制后台运行的应用、删除不需要的文件和应用等。 随着Android系统的不断发展,其功能和性能也在不断提升。例如,最新的Android版本引入了更多的安全性和隐私保护功能,以及更流畅的用户界面和更强大的性能。此外,Android系统也在不断探索新的应用场景,如智能家居、虚拟现实、人工智能等领域。 总之,Android系统是一种功能强大、灵活可定制、拥有丰富应用生态系统的移动操作系统,在全球范围内拥有广泛的用户基础。

    Visio卷积神经网络(CNN)结构图模板:专业设计资源下载

    Visio卷积神经网络(CNN)结构图模板是一个专为深度学习和人工智能领域设计的绘图工具。该模板提供了一套完整的预制图形和符号,包括卷积层、池化层、全连接层、激活函数等,使得用户能够快速构建和自定义复杂的神经网络架构。通过这个模板,研究人员和工程师可以更加直观和高效地展示和分享他们的模型设计。它适用于学术论文、技术报告、项目演示等多种场合。该资源还包括易于编辑的图层和格式,允许用户根据需要调整网络的每个部分。此外,Visio的拖放功能和自动化特性大大简化了绘图过程,使得即使是初学者也能轻松创建专业的CNN结构图。

    2024-2030中国粉尘环境在线监测报警系统市场现状研究分析与发展前景预测报告.docx

    2024-2030中国粉尘环境在线监测报警系统市场现状研究分析与发展前景预测报告

    基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip

    基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip 基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip基于 SpringCloud 和 Vue3 的OA系统源码+数据库.zip

    VIO初始化其实不难,看完这篇你就懂了

    VIO初始化其实不难,看完这篇你就懂了

    地毯纱线,全球前19强生产商排名及市场份额.docx

    地毯纱线,全球前19强生产商排名及市场份额.docx

    78-78.渗透测试-msfconsole漏洞利用流程下.mp4

    78-78.渗透测试-msfconsole漏洞利用流程下.mp4

    Java毕业设计-基于SSM框架的游戏资源管理系统(源码+演示视频+说明).rar

    Java毕业设计-基于SSM框架的游戏资源管理系统(源码+演示视频+说明).rar 【项目技术】 开发语言:Java 框架:ssm+vue 架构:B/S 数据库:mysql 【演示视频-编号:535】 https://pan.quark.cn/s/b3a97032fae7 【实现功能】 本次开发的游戏资源管理系统实现了字典管理、论坛管理、攻略管理、留言版管理、物品管理、用户管理、资讯信息管理、管理员管理等功能。

    node-v4.7.0-linux-x64.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    node-v5.7.0-linux-ppc64le.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    tensorflow-gpu-2.5.3-cp39-cp39-manylinux2010-x86-64.whl

    resnet

    海尔数字化虚拟工厂项目总结qy.pptx

    海尔数字化虚拟工厂项目总结qy.pptx

    77-77.渗透测试-msfconsole漏洞利用流程上.mp4

    77-77.渗透测试-msfconsole漏洞利用流程上.mp4

    node-v4.8.0-linux-ppc64le.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    AndroidMediaPlayer By VLC(基于VLC的Android媒体播放器).zip

    Android是一种基于Linux内核(不包含GNU组件)的自由及开放源代码的移动操作系统,主要应用于移动设备,如智能手机和平板电脑。该系统最初由安迪·鲁宾开发,后被Google公司收购并注资,随后与多家硬件制造商、软件开发商及电信营运商共同研发改良。 Android操作系统的特点包括: 开放源代码:Android系统采用开放源代码模式,允许开发者自由访问、修改和定制操作系统,这促进了技术的创新和发展,使得Android系统具有高度的灵活性和可定制性。 多任务处理:Android允许用户同时运行多个应用程序,并且可以轻松地在不同应用程序之间切换,提高了效率和便利性。 丰富的应用生态系统:Android系统拥有庞大的应用程序生态系统,用户可以从Google Play商店或其他第三方应用市场下载和安装各种各样的应用程序,满足各种需求。 可定制性:Android操作系统可以根据用户的个人喜好进行定制,用户可以更改主题、小部件和图标等,以使其界面更符合个人风格和偏好。 多种设备支持:Android操作系统可以运行在多种不同类型的设备上,包括手机、平板电脑、智能电视、汽车导航系统等。 此外,Android系统还有一些常见的问题,如应用崩溃、电池耗电过快、Wi-Fi连接问题、存储空间不足、更新问题等。针对这些问题,用户可以尝试一些基本的解决方法,如清除应用缓存和数据、降低屏幕亮度、关闭没有使用的连接和传感器、限制后台运行的应用、删除不需要的文件和应用等。 随着Android系统的不断发展,其功能和性能也在不断提升。例如,最新的Android版本引入了更多的安全性和隐私保护功能,以及更流畅的用户界面和更强大的性能。此外,Android系统也在不断探索新的应用场景,如智能家居、虚拟现实、人工智能等领域。 总之,Android系统是一种功能强大、灵活可定制、拥有丰富应用生态系统的移动操作系统,在全球范围内拥有广泛的用户基础。

    机器学习的数据预处理模块(二):主成分分析

    机器学习的数据预处理模块(二):主成分分析

    node-v4.8.1-sunos-x86.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    pc样本学习笔记之DLL劫持与启发查杀.docx

    pc样本学习笔记之DLL劫持与启发查杀.docx

Global site tag (gtag.js) - Google Analytics