`
banditjava
  • 浏览: 158234 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Nutch:一个灵活可扩展的开源web搜索引擎

阅读更多
在网上找到一篇于2004年11月由CommerceNet Labs出具关于Nutch的技术研究报告,报告由DougCutting和CommerceNet Labs的三位研究员一起来完成的。

报告的全名是Nutch: A Flexible and Scalable Open-Source Web Search Engine。基本描述了Nutch、Lucene与其它开源搜索软件的比较,Nutch的组成框架,索引和搜索功能等等。

从报告内容来看,Nutch正在接近当初的目标,甚至有一些方面已经超过报告内容的描述。报告中并没有提到现在很牛的Hadoop,因为Hadoop是在Nutch项目启动后,分离出去的,现在用的Nutch0.9版本中的Hadoop还不是最新的,只是0.12版本,最新的已经是0.19啦!

具体的内容详见附件。
分享到:
评论
8 楼 banditjava 2008-10-24  
最新发布有0.18,现在正在开发0.19-dev,可以从SVN上拿
7 楼 chenlb 2008-10-23  
目前, 最新的hadoop是0.18.1吧
6 楼 banditjava 2008-09-28  
我刚才试了一下,用“中”搜索时,可以分页啊。现在默认一页10条,如果hits集大于10分页应该没有问题啊
5 楼 lengweiping1983 2008-09-28  
你哪个so.21315.com我发现在一个问题,搜索"中国"分页可以,搜索"中"分页就不行了.
4 楼 lengweiping1983 2008-09-28  
看到你的文章,真的感觉到开源的力量,自己身为做java方面的开发多年,都没有好好去研究,真是可惜.
3 楼 lengweiping1983 2008-09-28  
看过一些,写得不错,近来关心了一下云运算,就找到hadoop,lucene(以前也用过,自己写了一个站内搜索),后来就找到了nutch,就找到了你的blog.你做了这个东西,是不是得到了好多好的评价,其实我不只是想做来玩玩的,而是想做一个到时候有公司需要.
2 楼 banditjava 2008-09-28  
10.1我不在线,可以给我发站内信,呵!但基本上关于如果配置的问题都已经在我blog里面写到了
1 楼 lengweiping1983 2008-09-28  
十一国庆期间,我也来做一个玩玩,有问题请教你.

相关推荐

    应用Web挖掘的主题元搜索引擎的设计与实现

    本论文介绍了应用Web数据挖掘,基于开源搜索引擎Nutch 0.9及相关软件包,结合主题搜索引擎和元搜索引擎的特点,设计和实现一个主题元搜索引擎TSMSE,借以改善通用全文搜索引擎的查全率和查准率。 论文首先开发了主题...

    solr 企业搜索引擎教程

    Apache Solr 是一个开源的搜索服务器,Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。定制 Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一 个描述所有 Field 及其内容的 XML 文档就...

    基于Nutch+ElasticSearch+MySQL+SSM的简易搜索引擎.zip

    自1998年首次发布以来,MySQL以其卓越的性能、可靠性和可扩展性,成为全球范围内Web应用程序、企业级解决方案以及其他各种数据处理场景的首选数据库平台之一。 以下是对MySQL数据库的详细介绍: 核心特性与优势 ...

    lucene例子

    Lucene 是一个开源、高度可扩展的搜索引擎库,可以从 Apache Software Foundation 获取。您可以将 Lucene 用于商业和开源应用程序。Lucene 强大的 API 主要关注文本索引和搜索。它可以用于为各种应用程序构建搜索...

    网络爬虫调研报告.doc

    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之中。 Larbin 开发语言...

    网络爬虫调研报告(1).doc

    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之中。 Larbin 开发语言...

    网络爬虫调研报告(2).doc

    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之中. Larbin 开发语言:...

    婚恋网站源码java-Search-Enginerfor-Cricket:板球搜索引擎

    是一款互联网搜索引擎软件,web Crawler,强大的垂直搜索引擎: 为了抓取与 Cricket Sports 相关的网页,Apache Nutch 框架被用于抓取以及将抓取的内容从抓取到托管在本地主机上的 Solr 框架,以便为抓取的网页建立...

    Hadoop权威指南 第二版(中文版)

     Nutch 搜索引擎  背景介绍  数据结构  Nutch系统利用Hadoop进行数据处理的精选实例  总结  Rackspace的日志处理  简史  选择Hadoop  收集和存储  日志的MapReduce模型  关于Cascading  字段、元组和...

    Hadoop权威指南(中文版)2015上传.rar

    Nutch 搜索引擎 背景介绍 数据结构 Nutch系统利用Hadoop进行数据处理的精选实例 总结 Rackspace的日志处理 简史 选择Hadoop 收集和存储 日志的MapReduce模型 关于Cascading 字段、元组和管道 操作 Tap类,Scheme对象...

Global site tag (gtag.js) - Google Analytics