阅读更多

Apache Nutch v1.8已经发布了,建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本,Apache Tika也升级到了1.4版本,同时还修复了35个BUG,提供了18项改进。详细内容请看更新日志下载地址Nutch官网

 

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

 

Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

 

在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。

 

大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。

 

Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?

 

NUTCH/HADOOP视频教程

9
0
评论 共 4 条 请登录后发表评论
4 楼 newmanandlady 2014-05-19 13:48
不明觉厉  微明觉厉
3 楼 高军威 2014-03-19 12:44
向牛人致敬
2 楼 mayufenga1 2014-03-19 09:11
微明觉厉。。。。
1 楼 caixiexin 2014-03-19 08:28
不明觉厉。。。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Java中字符的输入

    Java怎么输出字符 ?

  • java的输入方法

    输入方法

  • Java中输入字符和字符串

    next()方法相当于取出字符串进行输入,charAt(0)方法则是将该字符串的第一个字符进行输入,而我们字符本身也是也只有一个,因此它相当于长度为1的字符串,所以charAt(0)则是将字符串第一个字符输入,也就是实现了输入字符的操作。谈到字符串的输入,则分为带空格的字符串的输入和不带空格的字符串的输入。.首先,在Java中输入时,我们要先导入Scanner这个类。接下来我们在main中创建一个Scanner这个类的对象。在java中,字符都是当作字符串来输入的。这种则是直接将字符看做字符串来输入。

  • java string输入_怎么让Java获取用户输入的字符串

    从控制台动态输入数据,对数据进行各种各样的处理,然后将数据输出是很常见的操作。现在对数据的输入方式进行系统的介绍:Scanner类的调用相关方法:hasNext()判断扫描器中当前扫描位置后是否还存在下一段。hasNextLine()如果在此扫描器的输入中存在另一行,则返回 true。next()查找并返回来自此扫描器的下一个完整标记。nextLine()此扫描器执行当前行,并返回跳过的输入信息。...

  • java怎么键盘录入字符串

    java怎么键盘录入字符串 如图所示: 来看一下每句代码的意思: 先写上:import java.util.Scanner //导入 java.util 包下的 Scanner 类,导入后才能使用它 接着:Scanner.sc = new Scanner(System.in); //new是指创建了一个scanner类,在创建Scanner类的对象时要用System.in作为它的参数,可以将scanner看做System.in对象的支持者。System.in取得用户输入的内容后,交给Scanner来作一些

  • java如何输入数,字符,字符串

    一,利用 Scanner 实现从键盘读入integer或float 型数据 import java.util.*; public class test { public static void main(String args[]) { Scanner cin=new Scanner(System.in); //使用Scanner类定义对象 ...

  • java简单的输入语句(字符串)

    输入代码: import java.io.*;//使用BufferedReader用前需要引入import java.io.Reader public class string { public static void main(String[] args)throws IOException { while(true) {

  • java-字符串的输入输出处理

    java-字符串的输入输出处理

  • java中如何输入一个字符(用字符串转换)

    java中输入单个字符

  • java读取输入字符串的操作

    读取输入字符串的方法: 通过Scanner类读取字符串的方法next()和nextLine() import java.util.*; public class Main{ public static void main(String []args){ Scanner scanner = new Scanner(System.in); String a =scanner.next();/...

  • Java代码编写-对输入的字符串进行处理

    唉,今天面试的时候面试官问我的这道题目,脑子当时太笨了,没答出来,这里还是复盘下,写个博客记录下。b)把数字与字母之间用下划线字符 (_)分开,使得更清晰。要求程序对用户输入的字符串进行处理。c)把单词中间有多个空格的调整为1个空格。a)把每个单词的首字母变为大写。

  • java中如何输入字符

    char m = input.next().charAt(0); 下面是ACM中的模拟计算器的题目,以此作为示例: import java.util.*; public class Main { public static void main(String[] args){ Scanner in = new Scanner(System.in); int a = in.nextInt(); i...

  • Java 将字符串输入文件中

    题目介绍 从键盘输入一个字符串,将小写字母全部转换成大写字母,然后输出到一个磁盘文件"test"中保存 思路分析 思路比较简单,先用Scanner对象获得一个字符串。然后创建文件,然后在将字符串输入到指定的文件中 使用类的对象 Java IO使用原则: 按照数据来源(去向)分类: 1.是文件:FileInputStream,FileOutputStream,FileReader,FileWrite...

  • java输入字符串并将每个字符输出

    import java.util.Scanner; public class Main{ public static void main(String[] args){ int i,len; String str; Scanner in = new Scanner(System.in); str = in.next(); len = str.length(); //求出长度

  • Java 输出字符串 测试

    package Number; public class Frust { //声明 静态的 字符串变量 ,不大明白 静态是啥意思 static String s1 = "你好"; public static void main(String[] args) { // TODO 自动生成的方法存根 //声音一个 字符串变量 String s2 = "Java"; //输出 ...

  • java初学 Scanner 中 输入数字和字符串的方法

    输入书之后再输入字符串怎么办 package com.heima.scanner; import java.util.Scanner; /** * 2016-8-20 23:00:05 * @author fenuang * */ public class demo_Scanner { public static void main(String[] args) { // T

  • 在java中如何从键盘中读取一个字符串

    在java中字符和字符串用到的非常多,那我们如何从键盘中读取一个字符呢?   Scanner s = new Scanner(System.in);   String str = s.nextLine();   这时候输入的str是一个字符串而不是字符,   char ch = str.charAt(0);   经过这样ch就是一个字符而不是字符串了!

  • java输入对话框_Java语言程序设计(五)从对话框获取输入及String类型

    1.String类型char类型只能表示一个字符,为了表示一串字符,使用成为String(字符串)的数据类型,例如下述代码将消息声明为一个字符串。String message = "Welcome to Java";String实际上与System类,JOptionPane类和Scanner类一样,都是一个Java库中预定义的类。我们在操作时,可以进行两个字符串的连接,如果操作数之一是字符串,加号...

Global site tag (gtag.js) - Google Analytics