`

把另外的一个项目加入了nutch中来

 
阅读更多

周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下,刚开始总以为把一个项目都以plugin的形式加入到nutch中来,是不是有点.......嗨,搞呗。周日竟然成功了,分享下新得先。

先贴出来先日志的东东吧,我们要求的是nutch边从网站上爬取,所加入的项目(plugin)得边去解析(抽取)数据。就这么简单,插件的介绍在上几次已经介绍过了,看下日志:

product_name = The Incident (CD) 
product_price =     $14.01  
product_image = http://i43.tower.com/images/mm113708247/incident-porcupine-tree-cd-cover-art.jpg 
product_category = Music Rock & Pop Progressive Rock 
product_description = ?             ?             ??                         ???                           ???Learn more about the  format using Tower WIKI.                            September 15, 2009  1    016861785727   113708247     #748 in Music  (See ) #347 in Rock & Pop (See ) #2 in Progressive Rock (See ) 
product_review =                   To sample an individual track, click the  button located beside your desired song.              
product_type = dvd

product_url = http://www.tower.com/incident-porcupine-tree-cd/wapi/113708247

 

至于乱码,先不用管,可能是上次程序的bug吧。这也是在澳门回归十周年的这一天搞出来的啊。不过也得先祝贺一下我们的祖国繁荣昌盛,越来越强大!今天先写到这吧!

 

分享到:
评论
2 楼 p_x1984 2010-11-09  
我们用的是nutch1.0的。
1 楼 oolala 2010-11-08  
请问你们现在用的是哪个版本,用1.2怎么总是有问题。

相关推荐

    nutch中文分词

    nutch应用,nutch中文分词,nutch中文乱码

    Nutch中文分词插件的编写与配置

    Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。...询,就需要编写一个中文分词器。下面介绍Nutch中文分词插件的实现与配置。

    Nutch中文教程nutcher.zip

    nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: https://github.com/CrawlScript/nutcher 目录: Nutch教程——导入Nutch工程,执行完整爬取 ...

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Apache Nutch v1.15

    Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。 大数据这个术语最早的引用可追溯到Nutch...

    nutch 初学文档教材

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....

    eclipse内加入Nutch

    本文章修改了在eclipse中加入Nutch的详细过程!

    java Nutch项目

    此项目是Nutch java项目,可做二次开发或是插件,也可供学习,请按里面使用说明来操作才能是在 eclice下面启动。

    基于Nutch中文分词的研究与实现

    作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...

    Nutch公开课从搜索引擎到网络爬虫

    课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对...

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

    nutch的源码解读和nutch入门

    学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎

    开发基于 Nutch 的集群式搜索引擎

    在该示例中,首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站,目标网站将被部署在域名为 myNutch.com 的服务器上。然后示例说明 Nutch 爬虫如何抓取目标网站内容,产生片断和索引,并将结果存放在集群的2个节点...

    nutch根据URL来查找快照

    nutch根据URL来查找快照,为了解决索引重建后无法查看快照的情况

    eclipse配置nutch,eclipse配置nutch

    eclipse配置nutch,eclipse配置nutch

    Eclipse中编译Nutch-1.0

    Eclipse 中编译 Nutch-1.0 运行源代码

    nutch的另外两个包

    nutch的另外两个插件包 jid3lib-0.5.1.jar,rtf-parser.jar

    nutch使用&Nutch;入门教程

    nutch使用&Nutch;入门教程 pdf

    nutch1.2测试文档

    nutch1.2测试文档

    Nutch搜索引擎·Nutch浅入分析(第5期)

    1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析

Global site tag (gtag.js) - Google Analytics