`
- 浏览:
39842 次
- 性别:
- 来自:
上海
-
最新评论
-
brada:
看这篇文章,不知道为啥作者不能做到起码的公正。举个例子哈: 2 ...
IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
-
lies_joker:
monolithic 写道我这边用的是mmseg4j ,与最新 ...
solr4.8的安装,配置,使用,搜索,推荐及看法
-
monolithic:
我这边用的是mmseg4j ,与最新的solr4.9结合,也挺 ...
solr4.8的安装,配置,使用,搜索,推荐及看法
-
lies_joker:
东林碣石 写道我想问一下楼主,你们公司使用solr建的索引的规 ...
solr4.8的安装,配置,使用,搜索,推荐及看法
-
东林碣石:
我想问一下楼主,你们公司使用solr建的索引的规模有多大?有几 ...
solr4.8的安装,配置,使用,搜索,推荐及看法
今天下午,总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在,一年半接近两年的时间了。从开始的一无所知、凑合着用到后来的尝试梳理、阅读源码、放弃使用再到今年的坚定信念来攻克以至今日可以随意的修改满足自己的需求,心理历程不可谓不复杂。
nutch并不是很高深的技术,但是基于hadoop的mapreduce运算不禁让人生畏,敬而远之。我最初做采集的时候即用nutch,后来几经周折还是放弃。nutch是需要linux环境的,如果做二次开发,需要cygwin来模拟linux,这对不太需要的人来说略麻烦;nutch的采集机制是互联网爬虫,这方案对于小范围定向的采集来说,体量过于臃肿,速度也不够迅捷。我做工商数据采集的时候,就痛下决心,放弃了nutch,改用自己写的采集器。现在想来,是壮士断腕,有舍有得,虽然暂时放弃了学习nutch的机会,但加深了对互联网数据挖掘的认知。此后自己独立开发了一套分布式采集、数据分析、数据管理的系统。
去年一年,也看过几次nutch的源码,都是浅尝辄止。因为自己的系统已经相当成熟,就没有深入的研究nutch。当时正是用webdriver用得欢乐的时候,写了很多很酷的程序,学会很多不错的技能。无限怀念那段加班很high的写代码、在办公司做俯卧撑、在会议室用投影仪看视频的时光。
今年上半年以来,对solr等等有了更深入的研究和应用。逐渐认识到搭建一个海量的数据挖掘系统的重要性。其实自己写程序也能做到,但是应对这种庞大而杂乱的数据量,总是会有很多问题出现,这个时候,基于mapreduce的nutch的优势出来了,它就是擅于处理很多很杂的数据。给它个种子,它就没有尽头的按照你说的做下去。加上手头hadoop集群和solr服务器的完善,研究nutch逐渐提上日程。从六七月份断断续续的看,到这个月的深入研读。总算让它为我所用了。目前已经可以随意的对nutch二次开发,下一步是搭建nutch采集集群,形成自己的数据挖掘体系。
当然,这段开发,也让自己认识到有更多的东西需要学习和研究。首当其冲的是mapreduce,其次是mahout以及基于solr相似度的推荐机制。十月份,希望能把这块搞定,至少把mahout搭建起来,大量实战hadoop。
未完待续...
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
Nutch1.7二次开发培训讲义,非常详细
我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求
Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析
Nutch 高级 插件是开发 多Nutch内部的流程有很好的解释和说明
完整的《Lucene+nutch搜索引擎开发》pdf版一共有83.6M,无奈我上传的上限是80M,所以切成两个。这个是副文件,还有个主文件http://download.csdn.net/detail/spring123tt/4361166 ,解压时,将两个文件放在一起解压...
然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中,首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站,目标网站将被部署在域名为 myNutch.com 的服务器上。然后...
非常实用的分布式搜索引擎开发工具nutch,有兴趣的赶紧下吧!
Nutch开发入门 Nutch安装和使用 Nutch二次开发 很不错
学习Lucene和Nutch的入门书籍,学习搜索引擎开发值得一看的书籍
很好的哦!! ~~~~~~~~~~~~~~~~~~~ 我开发用了很好
完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。
一步一步详细解释了如何搭建nutch web开发环境,对nutch1.2有效,nutch1.3以上已经没有web这部分内容了
详细解释了如何搭建nutch开发环境,每一个步骤都有详细说明
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
NULL 博文链接:https://edwin492.iteye.com/blog/1135142
Lucene nutch 搜索引擎开发 Part1
我自己对nutch安装开发环境的一些理解,以及遇到问题的解决方法
nutch二次开发总结.txt nutch入门.pdf nutch入门学习.pdf Nutch全文搜索学习笔记.doc Yahoo的Hadoop教程.doc [硕士论文]_基于Lucene的Web搜索引擎实现.pdf [硕士论文]_基于MapReduce的分布式智能搜索引擎框架研究....
Lucene+Nutch搜索引擎开发