做Nutch二次开发,开发阶段用什么操作系统都可以,只要有JDK和Eclipse即可,源代码的管理需要使用一个集中的版本控制系统,可以使用SVN或GIT,建议采用Bitbucket免费的私有库托管。如果想阶段性地在Hadoop集群上面试运行,需要搭建一个Hadoop伪分布式集群或完全分布式集群,开发组可以共用一个集群。
1、下载并解压eclipse(集成开发环境)
使用Standard版
下载地址:Eclipse Standard 4.3.2 For Windows 64Bit
Eclipse Standard 4.3.2 For Windows 32Bit
2、安装Subclipse插件(SVN客户端)
Help >Install new software… > Add… > Name:subclipse > Location: http://subclipse.tigris.org/update_1.8.x > 选中 Subclipse and SVNKit > Next> Next >选中I accept … > Finish > continue? OK> restart? > Yes
3、安装IvyDE插件(下载依赖Jar)
Help > Installnew software… > Add… > Name:ivyde > Location: http://www.apache.org/dist/ant/ivyde/updatesite/ >选中Apache Ivy Library and Apache IvyDE Eclipseplugins > Next > Next >选中I accept … > Finish> continue? OK > restart? > Yes
4、签出代码
File >New > Project > SVN > 从SVN 检出项目 > Next >选中 创建新的资源库位置 > Next > URL:https://svn.apache.org/repos/asf/nutch/tags/release-1.7/> Next >选中URL > Finish > 弹出New Project向导,选择JavaProject > Next > 输入Projectname:nutch1.7 > Finish > 确认覆盖? OK
5、配置文件编码和环境变量
在左部Package Explorer的 nutch1.7文件夹上单击右键 > Properties > 左边选中Resource> 右边Text file encoding > 选中other > 值为:UTF-8
在左部Package Explorer的 nutch1.7文件夹上单击右键 > Build Path > Configure Build Path... > 选中Source选项 > 选择src > Remove > Add Folder... > 选择src/java, src/test 和src/testresources(可选:对于插件,需要选中src/plugin目录下的每一个插件目录下的src/java, src/test文件夹) > OK
切换到Libraries选项 >
Add ClassFolder... > 选中nutch1.7/conf > OK
AddLibrary... > IvyDE Managed Dependencies > Next > Main > Ivy File:> Project… > 选中nutch1.7/ivy/ivy.xml > 0K >Finish(可选:对于插件,还需要:Add JARs... > IvyDEManaged Dependencies > Next > Main > Ivy File: > Project… > 选中nutch1.7/src/plugin/xxx/ivy.xml > OK,把这里的xxx替换为相应的插件名称)
切换到Order and Export选项>
选中conf > Top(重要!)
6、执行ANT下载依赖构建项目
在左部Package Explorer的 nutch1.7文件夹下的build.xml文件上单击右键 > Run As > Ant Build> BUILD SUCCESSFUL > 生成nutch1.7/build/apache-nutch-1.7.job
在nutch1.7\runtim目录下生成两个目录deploy和local,他们用于生产环境,跟二次开发没什么关系,deploy依赖Hadoop,local不依赖Hadoop
在左部Package Explorer的 nutch1.7文件夹上单击右键 > Refresh
在左部Package Explorer的 nutch1.7文件夹上单击右键 > Build Path > Configure Build Path... > 选中Libraries选项 > Add Class Folder... > 选中build > OK
7、修改配置文件
如nutch1.7/conf下不存在nutch-site.xml,则将nutch1.7/conf/nutch-site.xml.template复制一份改名为nutch1.7/conf/nutch-site.xml
如nutch1.7/conf下不存在regex-urlfilter.txt,则将nutch1.7/conf/regex-urlfilter.txt.template复制一份改名为nutch1.7/conf/regex-urlfilter.txt
如新增了文件,则在左部Package Explorer的 nutch1.7文件夹上单击右键 > Refresh
配置nutch-site.xml,新增:
<property>
<name>http.agent.name</name>
<value>nutch-crawler</value>
</property>
<property>
<name>http.content.limit</name>
<value>-1</value>
</property>
<property>
<name>db.max.outlinks.per.page</name>
<value>10000</value>
</property>
配置regex-urlfilter.txt,将
# acceptanything else
+.
替换为:
+^http://([a-z0-9]*\.)*news.163.com/
-.
8、开发运行调试
在左部Package Explorer的 nutch1.7文件夹上单击右键 > New > Folder > Folder name: urls
在刚新建的urls目录下新建一个文本文件url,文本内容为:http://news.163.com
打开src/java下的org.apache.nutch.crawl.Crawl.java类,单击右键Run As > Java Application > Console显示:Usage:Crawl <urlDir> -solr <solrURL> [-dir d] [-threads n] [-depth i][-topN N]
在Crawl类上重新单击右键Run As > RunConfigurations… > Arguments > 在Programarguments输入框中输入: urls -dir data -depth 3 > Run
在windows环境中如果抛出异常Failed to set permissions of path,则需要下载修改过的hadoop,替换nutch依赖的hadoop。下载地址:http://pan.baidu.com/s/1o60QtD4,因为nutch1.7依赖的hadoop版本为1.2.0,提供下载的是1.2.1,所以将下载的hadoop拷贝到ivy本地存储库C:/Users/ysc/.ivy2/cache/org.apache.hadoop/hadoop-core/jars目录,删除原来的1.2.0,将1.2.1改为1.2.0。
在需要调试的地方打上断点Debug As > Java Applicaton
9、查看结果
查看segments目录:
打开src/java下的org.apache.nutch.segment.SegmentReader.java类
单击右键Run As > Java Applicaton,控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: -dumpdata/segments/* data/segments/dump
用文本编辑器打开文件data/segments/dump/dump查看segments中存储的信息
查看crawldb目录:
打开src/java下的org.apache.nutch.crawl.CrawlDbReader.java类
单击右键Run As > Java Applicaton,控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入:data/crawldb -stats
控制台会输出 crawldb统计信息
查看linkdb目录:
打开src/java下的org.apache.nutch.crawl.LinkDbReader.java类
单击右键Run As > Java Applicaton,控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入:data/linkdb -dump data/linkdb_dump
用文本编辑器打开文件data/linkdb_dump/part-00000查看linkdb中存储的信息
10、全网分步骤抓取(可选)
在左部Package Explorer的 nutch1.7文件夹下的build.xml文件上单击右键 > Run As > Ant Build
cd /home/ysc/workspace/nutch1.7/runtime/local
#准备URL列表
wgethttp://rdf.dmoz.org/rdf/content.rdf.u8.gz
gunzipcontent.rdf.u8.gz
mkdir dmoz
bin/nutchorg.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/url
#注入URL
bin/nutchinject crawl/crawldb dmoz
#生成抓取列表
bin/nutchgenerate crawl/crawldb crawl/segments
#第一次抓取,s1是最新产生的segment
s1=`ls -d crawl/segments/2* | tail -1`
echo $s1
#抓取网页
bin/nutchfetch $s1
#解析网页
bin/nutchparse $s1
#更新URL状态
bin/nutchupdatedb crawl/crawldb $s1
#第二次抓取,生成抓取列表,s2是最新产生的segment
bin/nutchgenerate crawl/crawldb crawl/segments -topN 1000
s2=`ls -d crawl/segments/2* | tail -1`
echo $s2
bin/nutchfetch $s2
bin/nutchparse $s2
bin/nutchupdatedb crawl/crawldb $s2
#第三次抓取,生成抓取列表,s3是最新产生的segment
bin/nutchgenerate crawl/crawldb crawl/segments -topN 1000
s3=`ls -d crawl/segments/2* | tail -1`
echo $s3
bin/nutchfetch $s3
bin/nutchparse $s3
bin/nutchupdatedb crawl/crawldb $s3
#生成反向链接库
bin/nutchinvertlinks crawl/linkdb -dir crawl/segments
#建索引
bin/nutchsolrindex http://localhost:8983/solr/collection1 data/crawldb -linkdbdata/linkdb -dir data/segments
bin/crawl提供了更简单的增量抓取脚本
11、索引和搜索
下载解压solr,为了查看索引文件的格式,使用solr-4.6.1
下载地址:http://pan.baidu.com/s/1hqxEFxq
#配置solr core
复制nutch的conf目录中的schema-solr4.xml文件到solr-4.6.1/example/solr/collection1/conf目录,覆盖名为schema.xml的文件
修改solr-4.6.1/example/solr/collection1/conf/schema.xml,在<fields>下增加:<fieldname="_version_" type="long" indexed="true"stored="true"/>
#配置中文分词
下载中文分词依赖的Jar:http://pan.baidu.com/s/1i37gcg1
创建目录solr-4.6.1/example/solr/lib,并将下载下来的压缩文件中的3个jar文件提取出来放到该目录
修改文件solr-4.6.1/example/solr/collection1/conf/schema.xml
将字段类型text_general的analyzer的index和query的tokenizer分别改为:
<tokenizerclass="org.ansj.solr.AnsjTokenizerFactory"conf="ansj.conf"/>
和
<tokenizerclass="org.ansj.solr.AnsjTokenizerFactory"analysisType="1"/>
创建文件solr-4.6.1/example/solr/collection1/conf/ansj.conf,输入:
lastupdate=123
files=dic/customDic.txt
创建文件dic/customDic.txt,这就是自定义用户词典
#启动SOLR服务器
运行Jar文件:solr-4.6.1/example/start.jar
#浏览器管理界面
http://localhost:8983/solr/#/colletion1
12、查看索引信息
下载Luke(Lucene Index Toolbox):http://pan.baidu.com/s/1bn6CuQV
将索引文件solr-4.6.1/example/solr/collection1/data/index复制一份到其他目录,删除文件write.lock
File >Open Lucene Index > 选择复制的索引文件路径
13、插件开发
复制nutch1.7/src/plugin/parse-html,重命名为parse-jsoup,去掉对lib-nekohtml的依赖,修改build.xml、ivy.xml和plugin.xml,依赖的jar包jsoup配置到ivy.xml
修改nutch1.7/src/plugin/build.xml,加入新的插件parse-jsoup的配置,以便构建的时候能编译新的插件,有3个配置项,参考parse-html
将新插件加入Build Path(Source和Libraries)
修改nutch1.7/conf/parse-plugins.xml,加入mimeType和alias
相关推荐
### Nutch 1.7 二次开发培训讲义之腾讯微博抓取分析 #### 一、概述 Nutch 是一个开源的网络爬虫项目,它提供了灵活的数据抓取能力,并支持二次开发定制功能。本篇培训讲义主要针对的是如何使用 Nutch 1.7 版本对...
内容概要:本文详细介绍了Rtd 2796这款高性能4K显示器控制器的技术特点和应用场景。Rtd 2796支持多种显示接口,包括LVDS、VBO和eDP,适用于民用、工业、矿山和医疗等多个领域。文中通过具体的代码示例和技术细节,解释了如何配置这些接口以及它们的应用优势。此外,文章还探讨了硬件设计的关键点,如电源时序控制、信号完整性处理和硬件级画面拼接等功能。针对不同应用场景的需求,Rtd 2796提供了稳定的显示解决方案,并附带了详细的原理图和源代码,帮助开发者加快开发进度。 适合人群:电子工程师、硬件设计师、嵌入式开发人员、显示技术爱好者。 使用场景及目标:①民用领域:4K显示器、智能电视和平板电脑;②工业领域:工业自动化设备和控制面板;③矿山领域:矿山监控系统和设备显示屏;④医疗领域:医疗设备显示屏和手术室监控系统。目标是为用户提供稳定、高性能的4K显示解决方案。 其他说明:文章提供了丰富的技术细节和代码示例,有助于深入理解和实际应用。对于希望深入了解4K显示器技术和Rtd 2796控制器的读者来说,是一份极具价值的参考资料。
文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位,文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常,无任何异常情况,敬请您放心查阅与使用。文档仅供学习参考,请勿用作商业用途。 Rust 以内存安全、零成本抽象和并发高效的特性,重塑编程体验。无需垃圾回收,却能通过所有权与借用检查机制杜绝空指针、数据竞争等隐患。从底层系统开发到 Web 服务构建,从物联网设备到高性能区块链,它凭借出色的性能和可靠性,成为开发者的全能利器。拥抱 Rust,解锁高效、安全编程新境界!
航天电磁阀单元化制造工艺与质量管控.pdf
文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位,文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常,无任何异常情况,敬请您放心查阅与使用。文档仅供学习参考,请勿用作商业用途。 编译闪电般迅速,并发性能卓越,部署轻松简单!Go 语言以极简设计理念和出色工程性能,成为云原生时代的首选编程语言。从 Docker 到 Kubernetes,全球顶尖科技企业都在采用 Go。点击了解 Go 语言的核心优势、实战窍门和未来走向,开启高效编程的全新体验!
基于python实现进行股票分析和选股+源码+项目文档+使用说明,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档 使用python进行股票历史数据下载和分析选股。除了选股策略以外,其他都可公开。 git网站上有很多优秀开源量化平台项目。本项目与其他项目的区别是,本项目侧重于选股、回测所需数据的导入工作。有了历史数据和选股策略,选择哪个量化平台做回测都是很轻松的事情了。 业余编程水平,需求导向。才疏学浅,刚学python几个月时间。git主要作为云端git库使用。无任何解答服务。 力求选择最稳定可靠的数据获取方式。虽然网上有很多数据源平台,但都受制于“积分”、带宽、平台是否更新等,完全是把程序主动权交到了对方手里。因此本项目所有数据依靠本地通达信软件导出提供
文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位,文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常,无任何异常情况,敬请您放心查阅与使用。文档仅供学习参考,请勿用作商业用途。 Rust 以内存安全、零成本抽象和并发高效的特性,重塑编程体验。无需垃圾回收,却能通过所有权与借用检查机制杜绝空指针、数据竞争等隐患。从底层系统开发到 Web 服务构建,从物联网设备到高性能区块链,它凭借出色的性能和可靠性,成为开发者的全能利器。拥抱 Rust,解锁高效、安全编程新境界!
内容概要:本文详细介绍了融合正余弦和柯西变异的改进麻雀搜索算法(SCSSA)的复现过程。主要内容包括五个方面的改进策略:折射反向学习策略初始化、正余弦算法改进发现者策略、自适应调整系数、改进搜索因子以及柯西变异改进加入者策略。文中提供了具体的Python代码示例,展示了如何实现这些改进策略,并通过23个基准测试函数验证了SCSSA相比传统SSA的优越性能。此外,还通过图表分析了改进策略因子和搜索步长因子的变化,进一步证明了SCSSA的有效性。 适合人群:对优化算法感兴趣的科研人员、算法开发者以及相关领域的学生。 使用场景及目标:适用于需要解决复杂优化问题的研究和应用场合,旨在提高算法的全局搜索能力和跳出局部最优的能力,从而更快更精确地找到最优解。 其他说明:文章不仅提供了详细的理论解释和技术实现,还包括了丰富的实验数据和图表分析,帮助读者更好地理解和掌握SCSSA的工作原理和优势。
rtl/axis_fifo.v rtl/i2c_init.v rtl/i2c_master_axil.v rtl/i2c_master_wbs_8.v rtl/i2c_master_wbs_16.v rtl/i2c_master.v rtl/i2c_single_reg.v rtl/i2c_slave_axil_master.v rtl/i2c_slave_wbm.v rtl/i2c_slave.v tb/test_i2c_init.v tb/test_i2c_master_axil.vtb/test_i2c_master_wbs_8.v tb/test_i2c_master_wbs_16.v tb/test_i2c_master.v tb/test_i2c_slave_axil_master.v tb/test_i2c_slave_wbm.v tb/test_i2c_slave.v
适用于所有人的生成式AI-吴恩达:对于英文不佳的同学可看中文版课件
binzi56_algorithm-pattern-c_30952_1746371906469
内容概要:本文探讨了如何通过Stackelberg博弈模型解决光伏用户群之间的电量共享问题。当前分布式光伏上网政策限制了用户间的电量共享,导致资源利用效率低下。文中提出了一个多买方-多卖方的格局,运营商作为主导者制定内部电价,用户作为跟随者根据电价调整用电需求和光伏电量供应。通过MATLAB实现了模型的关键部分,包括参数定义、定价策略、用户需求响应以及寻找博弈均衡点。实验结果显示,该模型不仅提高了运营商的收益,还显著提升了用户的用电效益和光伏电量共享水平。 适合人群:对分布式能源系统、智能电网、博弈论及其应用感兴趣的科研人员和技术开发者。 使用场景及目标:适用于研究和开发分布式能源系统的优化调度方法,旨在提高光伏用户群的电量共享效率,促进能源的有效利用。 其他说明:文中详细介绍了模型的具体实现步骤和关键代码片段,提供了丰富的实验数据支持结论。此外,还讨论了实际应用中可能出现的问题及解决方案。
基于Swin Transformer与ASPP模块的图像分类系统设计与实现 本文介绍了一种结合Swin Transformer与空洞空间金字塔池化(ASPP)模块的高效图像分类系统。该系统通过融合Transformer的全局建模能力和ASPP的多尺度特征提取优势,显著提升了模型在复杂场景下的分类性能。 模型架构创新 系统核心采用Swin Transformer作为骨干网络,其层次化窗口注意力机制能高效捕获长距离依赖关系。在特征提取阶段,创新性地引入ASPP模块,通过并行空洞卷积(膨胀率6/12/18)和全局平均池化分支,实现多尺度上下文信息融合。ASPP输出经1x1卷积降维后与原始特征拼接,有效增强了模型对物体尺寸变化的鲁棒性。 训练优化策略 训练流程采用Adam优化器(学习率0.0001)和交叉熵损失函数,支持多GPU并行训练。系统实现了完整的评估指标体系,包括准确率、精确率、召回率、特异度和F1分数等6项指标,并通过动态曲线可视化模块实时监控训练过程。采用早停机制保存最佳模型,验证集准确率提升可达3.2%。 工程实现亮点 1. 模块化设计:分离数据加载、模型构建和训练流程,支持快速迭代 2. 自动化评估:每轮训练自动生成指标报告和可视化曲线 3. 设备自适应:智能检测CUDA可用性,无缝切换训练设备 4. 中文支持:优化可视化界面的中文显示与负号渲染 实验表明,该系统在224×224分辨率图像分类任务中,仅需2个epoch即可达到92%以上的验证准确率。ASPP模块的引入使小目标识别准确率提升15%,特别适用于医疗影像等需要细粒度分类的场景。未来可通过轻量化改造进一步优化推理速度。
内容概要:本文探讨了基于MATLAB和CPLEX仿真平台实现的考虑阶梯式碳交易机制与电制氢的综合能源系统热电优化。研究围绕碳交易、电制氢、阶梯式碳交易、综合能源系统热电优化等关键概念展开。通过引入阶梯式碳交易机制,使综合能源系统能够更好地控制碳排放。同时,细化电制氢过程,引入电解槽、甲烷反应器、氢燃料电池等设备,提高了氢能的利用效率。此外,提出了热电比可调的热电联产及氢燃料电池运行策略,提升了系统的灵活性和经济性。最终,通过设置购能成本、碳排放成本、弃风成本最小的目标函数并利用CPLEX求解,实现了对综合能源系统的优化。 适合人群:从事能源系统优化、碳交易机制研究、氢能技术开发的研究人员和技术人员。 使用场景及目标:适用于希望深入了解如何通过MATLAB和CPLEX实现综合能源系统优化的人士。目标是掌握如何在考虑阶梯式碳交易机制和电制氢的情况下,优化热电联产系统的运行,以达到节能减排的目的。 其他说明:文中详细介绍了各个模块的具体实现方法,包括碳交易机制的融入、电制氢过程的细化、热电联产与氢燃料电池运行策略的制定,以及目标函数的构建和求解策略。
图书馆管理系统源代码.zip
内容概要:本文详细介绍了西门子S7-1200控制器在5轴伺服控制系统中的应用案例。主要内容涵盖PTO伺服轴脉冲定位控制、速度模式和扭矩模式的具体实现方法。通过具体的PLC指令如MC_Power、MC_MoveAbsolute、MC_MoveVelocity等展示了如何精确控制伺服电机的位置、速度和扭矩。此外,文章强调了结构化编程和功能模块化设计的重要性,包括自动/手动/单步模式切换、暂停后原位置继续运行、轴断电保持以及报警处理等功能模块的设计思路。同时,文中还提到了程序的兼容性和功能块的复用性,使得程序易于维护和扩展。 适合人群:从事自动化控制领域的工程师和技术人员,尤其是那些希望深入了解西门子S7-1200控制器及其在多轴伺服控制中应用的人群。 使用场景及目标:①帮助工程师理解和掌握西门子S7-1200控制器在复杂多轴伺服控制中的编程技巧;②提供实际工程案例供参考,便于快速应用于类似的工程项目;③提高系统的稳定性和可靠性,确保在工业生产环境中高效运作。 其他说明:本文提供了丰富的代码片段和详细的解释,有助于读者更好地理解和实践。同时,文中提到的结构化编程思想和模块化设计理念对于提升编程效率和代码质量非常有价值。
文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位,文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常,无任何异常情况,敬请您放心查阅与使用。文档仅供学习参考,请勿用作商业用途。 编译闪电般迅速,并发性能卓越,部署轻松简单!Go 语言以极简设计理念和出色工程性能,成为云原生时代的首选编程语言。从 Docker 到 Kubernetes,全球顶尖科技企业都在采用 Go。点击了解 Go 语言的核心优势、实战窍门和未来走向,开启高效编程的全新体验!
内容概要:本文详细介绍了自然语言处理(NLP)及其核心技术Transformer的发展与应用。首先阐述了NLP的核心任务,包括语言理解(词法、句法、语义分析)、语言生成(文本摘要、对话系统等)和应用扩展(故障报告分析、情感分析等)。接着重点解析了2017年提出的Transformer模型,它摒弃传统RNN/CNN,采用自注意力机制,具有编码器-解码器结构和多头注意力机制,显著提升了长距离依赖建模能力,并衍生出BERT、GPT、T5等预训练模型。此外,还介绍了NLP的技术进展,如基于大规模语料库的自监督学习和微调机制,以及多模态拓展。最后提及了YOLO与NLP在特定资源包中的间接联系,强调当前NLP技术以Transformer为核心,持续推动语言智能边界。; 适合人群:对自然语言处理及Transformer技术感兴趣的科研人员、开发者及相关领域的学生。; 使用场景及目标:①了解NLP的基本概念和发展历程;②深入理解Transformer架构及其在NLP中的应用;③掌握NLP的关键技术进展和未来发展方向。; 其他说明:本文虽然提到YOLO,但主要聚焦于NLP与Transformer,YOLO仅在特定情况下与NLP存在间接关联。
内容概要:本文详细介绍了基于西门子PLC 1214C的压机控制系统,重点展示了模块化编程的应用及其优势。文中涵盖了多个功能块的具体实现,如压机控制、伺服控制、气缸控制、托盘坐标计算、基恩士扫码器集成等。每个功能块均采用SCL语言编写,具备良好的可移植性和灵活性。通过模块化设计,实现了复杂系统的高效管理和快速响应,显著提升了开发效率和调试便利性。 适合人群:从事工业自动化控制、PLC编程以及相关领域的工程师和技术人员。 使用场景及目标:适用于需要进行压机控制或其他类似工业自动化项目的场合。主要目标是提高编程效率、增强系统的可维护性和灵活性,同时降低开发成本和缩短项目周期。 其他说明:文章还提供了具体的代码示例,帮助读者更好地理解和应用模块化编程思想。此外,强调了模块化编程在实际项目中的重要性和优越性,鼓励读者尝试并掌握这一先进的编程方法。