`
jsczxy2
  • 浏览: 1287409 次
  • 性别: Icon_minigender_1
  • 来自: 常州
文章分类
社区版块
存档分类
最新评论

多线程爬虫Miner [转]

阅读更多

多线程爬虫Miner  

本文转自原作者博客:http://injavawetrust.iteye.com/blog/2293799
需要配置项:
1、URL包含关键字。
2、存储方式:DB-数据库存储;FILE-文件存储。
3、爬取页面最大深度。
4、下载页面线程数。
5、分析页面线程数。
6、存储线程数。
 

-------------------------------------------

程序中用到的表:

Sql代码  收藏代码
  1. CREATE TABLE `miner` (  
  2.   `id` varchar(32) NOT NULL,  
  3.   `batchNo` varchar(8) DEFAULT NULL,  
  4.   `filePath` varchar(255) DEFAULT NULL,  
  5.   `fileName` varchar(255) DEFAULT NULL,  
  6.   `getDate` datetime DEFAULT NULL,  
  7.   PRIMARY KEY (`id`)  
  8. ) ENGINE=InnoDB DEFAULT CHARSET=utf8;  

-------------------------------------------

程序中用到的maven依赖

Xml代码  收藏代码
  1. <dependency>  
  2.     <groupId>org.jsoup</groupId>  
  3.     <artifactId>jsoup</artifactId>  
  4.     <version>1.8.3</version>  
  5. </dependency>  
  6. <dependency>  
  7.     <groupId>mysql</groupId>  
  8.     <artifactId>mysql-connector-java</artifactId>  
  9.     <version>5.1.15</version>  
  10.     <scope>provided</scope>  
  11. </dependency>  
  12. <dependency>  
  13.     <groupId>commons-logging</groupId>  
  14.     <artifactId>commons-logging</artifactId>  
  15.     <version>1.2</version>  
  16. </dependency>  

 

测试类:

Java代码  收藏代码
  1. package com.iteye.injavawetrust.miner;  
  2.   
  3. import java.util.ArrayList;  
  4. import java.util.List;  
  5. /** 
  6.  * 测试类 
  7.  * @author InJavaWeTrust 
  8.  * 
  9.  */  
  10. public class MinerTest {  
  11.     public static void main(String[] args) {  
  12.         MinerConfig config = new MinerConfig();  
  13.         // 1、URL包含关键字。  
  14.         List<String> keys = new ArrayList<String>();  
  15.         keys.add("163");  
  16.         config.setKeys(keys);  
  17.         // 2、存储方式:DB-数据库存储;FILE-文件存储。  
  18.         config.setStoreType(StoreType.DB);  
  19.         // 3、爬取页面最大深度。  
  20.         config.setMaxDepth(2);  
  21.         // 4、下载页面线程数。  
  22.         config.setMinerHtmlThreadNum(5);  
  23.         // 5、分析页面线程数。  
  24.         config.setMiseringThreadNum(3);  
  25.         // 6、存储线程数。  
  26.         config.setMinserStoreThreadNum(3);  
  27.         // 7、设置爬取起始页面URL。  
  28.         MinerUrl minerUrl = new MinerUrl();  
  29.         minerUrl.setUrl("http://www.163.com");  
  30.         minerUrl.setDepth(1);  
  31.         Miner miner = new Miner(minerUrl, config);  
  32.         miner.start();  
  33.     }  
  34.   
  35. }  

 

爬虫 MINER   程序列表:

 

Html.java 存储页面信息类
Miner.java 爬虫启动类
MinerBean.java 数据库表 miner bean
MinerConfig.java 爬取配置类
MinerConstanits.java 常量类
MinerDB.java 数据库工具类
MinerHtmlThread.java 爬取页面线程
MinerMonitorThread.java 监控线程
MinerQueue.java 访问队列
MinerStoreThread.java 存储线程
MinerThreadPool.java 线程池
MinerUrl.java 解析页面后存储URL类
MinerUtil.java 爬虫工具类
MiseringThread.java 解析页面线程
StoreType.java 存储方式

分享到:
评论

相关推荐

    python爬虫代码(包括ppt,word,影视地址链接,电子书爬取)

    Scrapy则是一个功能强大的框架,支持多线程、中间件、请求队列等功能,适合大型项目的爬取。 4. **网页解析**:HTML和CSS选择器是解析网页内容的基础工具。通过学习XPath和CSS选择器,你可以准确地定位到网页中的...

    python自动化办公教程

    3. **线程管理**:多线程编程,提升程序并发性能。 这些章节的习题旨在巩固所学知识,通过实践加深理解,使读者能够灵活运用Python实现各种办公自动化任务。通过学习本教程,读者可以大大提高工作效率,减轻重复性...

    提取文件中的超级链接.rar

    同时,如果文件数量庞大,可能需要批量处理,这就涉及到文件遍历和多线程/异步处理等高级技巧。 总的来说,提取文件中的超级链接是一个涉及多种技术和工具的综合任务,需要根据具体需求灵活选用合适的方法。通过...

    Python-掘金翻译计划翻译掘金上优质的英文文章

    Python作为一种通用编程语言,其应用广泛,不仅限于Web开发、数据分析,还深入到人工智能、自动化脚本、网络爬虫等多个方向。因此,"其它杂项"可能包含Python在这些不同场景下的实践案例、最佳实践、工具介绍等内容...

    三电平SVPWM模型的Matlab仿真及其在逆变器性能优化中的应用

    内容概要:本文详细介绍了三电平SVPWM模型在Matlab中的搭建与研究,重点探讨了三电平逆变器的工作原理、性能特点以及参数优化方法。文中不仅解释了三电平逆变器相较于传统两电平逆变器的优势,如更高的电压分辨率和更低的谐波失真,还深入讨论了SVPWM控制策略的具体实现步骤,包括扇区划分、中性点电压平衡、死区时间和波形生成等关键环节。此外,文章还强调了仿真与实际应用之间的差异,指出仿真只是调试的起点而非终点。 适合人群:从事电力电子、自动化控制领域的研究人员和技术人员,尤其是对逆变器建模和仿真相关工作的从业者。 使用场景及目标:适用于需要深入了解三电平逆变器特性和优化控制策略的研究项目,旨在帮助读者掌握基于Matlab的三电平SVPWM模型构建技巧,从而更好地进行逆变器性能评估和改进。 其他说明:文章提供了大量实用的Matlab代码片段,便于读者理解和实践。同时提醒读者关注仿真与现实应用间的细微差别,确保理论成果能够顺利转化为实际效益。

    spring-boot-2.3.9.RELEASE.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    水利规范-7p倒虹吸工程及渠道防渗衬砌设计图集.zip

    水利规范-7p倒虹吸工程及渠道防渗衬砌设计图集.zip

    JAVAWeb外文文献毕业设计样本.doc

    JAVAWeb外文文献毕业设计样本.doc

    scratch少儿编程逻辑思维游戏源码-我的世界冒险通过 V5.zip

    scratch少儿编程逻辑思维游戏源码-我的世界冒险通过 V5.zip

    scratch少儿编程逻辑思维游戏源码-星之卡比 动画.zip

    scratch少儿编程逻辑思维游戏源码-星之卡比 动画.zip

    spring-data-redis-1.1.0.RELEASE.jar中文-英文对照文档.zip

    # 压缩文件中包含: 中文-英文对照文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    scratch少儿编程逻辑思维游戏源码-我的世界构建像素立方体.zip

    scratch少儿编程逻辑思维游戏源码-我的世界构建像素立方体.zip

    spring-boot-2.5.1.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    scratch少儿编程逻辑思维游戏源码-仙人掌内战.zip

    scratch少儿编程逻辑思维游戏源码-仙人掌内战.zip

    scratch少儿编程逻辑思维游戏源码-贪食蛇.zip

    scratch少儿编程逻辑思维游戏源码-贪食蛇.zip

    rocksdbjni-6.29.4.jar中文-英文对照文档.zip

    # 压缩文件中包含: 中文-英文对照文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    spring-boot-1.3.6.RELEASE.jar中文-英文对照文档.zip

    # 压缩文件中包含: 中文-英文对照文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    独家分享耗时3个月整理的开发者必备资源库 - 百度/迅雷/夸克三端同步更新

    复制链接到浏览器打开即可,https://link3.cc/diwangluo

    基于Matlab的水果识别程序:融合图像处理与深度学习技术

    内容概要:本文详细介绍了使用Matlab编写的水果识别程序。首先简述了人工智能和机器学习在水果识别领域的应用背景,强调了Matlab作为强大编程环境的优势。接着,文章逐步讲解了水果识别程序的具体实现流程,涵盖数据预处理、特征提取、模型训练以及最终的识别算法实现。每个环节都采用了先进的技术和方法,如图像去噪、大小调整、深度学习算法(特别是卷积神经网络CNN),并通过训练神经网络模型来提升识别精度。此外,还讨论了相关技术手段和技术挑战,展示了Matlab在图像处理和计算机视觉方面的强大能力。 适合人群:对图像处理、机器学习感兴趣的科研人员、学生及工程师。 使用场景及目标:适用于希望深入了解Matlab环境下水果识别程序的设计与实现的研究者;旨在帮助使用者掌握从数据准备到模型部署的一系列技能,为实际项目提供理论支持和技术指导。 其他说明:文中不仅提供了详细的程序实现步骤,还对未来发展方向进行了展望,鼓励更多人参与到水果识别及相关领域的研究中。

    rocksdbjni-6.16.4.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

Global site tag (gtag.js) - Google Analytics