周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下,刚开始总以为把一个项目都以plugin的形式加入到nutch中来,是不是有点.......嗨,搞呗。周日竟然成功了,分享下新得先。
先贴出来先日志的东东吧,我们要求的是nutch边从网站上爬取,所加入的项目(plugin)得边去解析(抽取)数据。就这么简单,插件的介绍在上几次已经介绍过了,看下日志:
product_name = The Incident (CD)
product_price = $14.01
product_image = http://i43.tower.com/images/mm113708247/incident-porcupine-tree-cd-cover-art.jpg
product_category = Music Rock & Pop Progressive Rock
product_description = ? ? ?? ??? ???Learn more about the format using Tower WIKI. September 15, 2009 1 016861785727 113708247 #748 in Music (See ) #347 in Rock & Pop (See ) #2 in Progressive Rock (See )
product_review = To sample an individual track, click the button located beside your desired song.
product_type = dvd
product_url = http://www.tower.com/incident-porcupine-tree-cd/wapi/113708247
至于乱码,先不用管,可能是上次程序的bug吧。这也是在澳门回归十周年的这一天搞出来的啊。不过也得先祝贺一下我们的祖国繁荣昌盛,越来越强大!今天先写到这吧!
分享到:
相关推荐
nutch应用,nutch中文分词,nutch中文乱码
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。...询,就需要编写一个中文分词器。下面介绍Nutch中文分词插件的实现与配置。
nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: https://github.com/CrawlScript/nutcher 目录: Nutch教程——导入Nutch工程,执行完整爬取 ...
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。 大数据这个术语最早的引用可追溯到Nutch...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
本文章修改了在eclipse中加入Nutch的详细过程!
此项目是Nutch java项目,可做二次开发或是插件,也可供学习,请按里面使用说明来操作才能是在 eclice下面启动。
作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...
课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对...
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
在该示例中,首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站,目标网站将被部署在域名为 myNutch.com 的服务器上。然后示例说明 Nutch 爬虫如何抓取目标网站内容,产生片断和索引,并将结果存放在集群的2个节点...
nutch根据URL来查找快照,为了解决索引重建后无法查看快照的情况
eclipse配置nutch,eclipse配置nutch
Eclipse 中编译 Nutch-1.0 运行源代码
nutch的另外两个插件包 jid3lib-0.5.1.jar,rtf-parser.jar
nutch使用&Nutch;入门教程 pdf
nutch1.2测试文档
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析