`

hadoop 实战

阅读更多

 


在装Hadoop之前首先需要: 
1.java1.6.x 最好是sun的,1.5.x也可以 
2.ssh 
安装ssh 

$ sudo apt-get install ssh 
$ sudo apt-get install rsync 


下载Hadoop 
从http://hadoop.apache.org/core/releases.html 下载最近发布的版本 

最好为hadoop创建一个用户: 
比如创建一个group为hadoop user为hadoop的用户以及组 

$ sudo addgroup hadoop 
$ sudo adduser --ingroup hadoop hadoop 

解压下载的hadoop文件,放到/home/hadoop目录下 名字为hadoop 
配置JAVA_HOME: 

gedit ~/hadoop/conf/hadoop-env.sh 

将 

Java代码 
# The java implementation to use.  Required. 
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun 

修改成java的安装目录:(我的是:/usr/lib/jvm/java-6-sun-1.6.0.15) 

# The java implementation to use. Required. 
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.15 


现在可以使用单节点的方式运行: 

$ cd hadoop 
$ mkdir input 
$ cp conf/*.xml input 
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' 
$ cat output/* 

Pseudo-distributed方式跑: 

配置ssh 

$ su - hadoop 
$ ssh-keygen -t rsa -P "" 
Generating public/private rsa key pair. 
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): 
Created directory '/home/hadoop/.ssh'. 
Your identification has been saved in /home/hadoop/.ssh/id_rsa. 
Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub. 
The key fingerprint is: 
9d:47:ab:d7:22:54:f0:f9:b9:3b:64:93:12:75:81:27 hadoop@ubuntu 


让其不输入密码就能登录: 

hadoop@ubuntu:~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 

  使用: 

$ ssh localhost 

看看是不是直接ok了。 


hadoop配置文件: 
conf/core-site.xml 

Java代码 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 

<!-- Put site-specific property overrides in this file. --> 

<configuration> 
   <property> 
    <name>hadoop.tmp.dir</name> 
        <value>/home/hadoop/hadoop-datastore/hadoop-${user.name}</value> 
   </property> 
   <property> 
    <name>fs.default.name</name> 
    <value>hdfs://localhost:9000</value> 
   </property> 
</configuration> 

hadoop.tmp.dir配置为你想要的路径,${user.name}会自动扩展为运行hadoop的用户名 

conf/hdfs-site.xml 

Xml代码 
<configuration> 
  <property> 
    <name>dfs.replication</name> 
    <value>1</value> 
  </property> 
</configuration> 

dfs.replication为默认block复制数量 
conf/mapred-site.xml 

Xml代码 
<configuration> 
  <property> 
    <name>mapred.job.tracker</name> 
    <value>localhost:9001</value> 
  </property> 
</configuration> 

执行 

格式化分布式文件系统: 

$ bin/hadoop namenode -format 

启动hadoop: 

Java代码 
$ bin/start-all.sh 

可以从 

NameNode - http://localhost:50070/ 
JobTracker - http://localhost:50030/ 

查看NameNode和JobTracker 

运行例子: 


$ bin/hadoop fs -put conf input 
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' 

look at the run result: 
$ bin/hadoop fs -get output output 
$ cat output/* 


大家可参考: 1、http://hadoop.apache.org/common/docs/current/quickstart.html 
2、http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_%28Single-Node_Cluster%29

分享到:
评论

相关推荐

    Hadoop实战实战-陆嘉恒(高清完整版)

    《Hadoop实战(第2版)》能满足读者全面学习最新的Hadoop技术及其相关技术(Hive、HBase等)的需求,是一本系统且极具实践指导意义的Hadoop工具书和参考书。第1版上市后广受好评,被誉为学习Hadoop技术的经典著作之...

    Hadoop实战(第2版).pdf

    Hadoop实战(第2版).pdf

    hadoop实战第二版及源码

    此资源为hadoop实战第二版及所有源码,作者是陆嘉恒。这是非常经典的一部学习hadoop的工具书和参考书。

    Hadoop实战(韩冀中)中文版

    Hadoop实战(韩冀中)中文版 pdf。《Hadoop实战》是一本系统且极具实践指导意义的hadoop工具书和参考书。内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive...

    Hadoop实战 中文版

    纵情享受海量数据之美!揭开云计算的神秘面纱!深入分析,追本溯源!作为云计算所青睐的分布式架构,hadoop 是一个用java 语言... 《hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。

    Hadoop实战中文版

    《Hadoop实战》作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地...

    hadoop 实战 中文版 韩冀中

    《Hadoop实战》是一本系统且极具实践指导意义的hadoop工具书和参考书。内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、...

    Hadoop实战中文版 完整版

    Hadoop实战中文版 完整版

    Hadoop实战++第2版.pdf 高清扫描带书签 免费下载

    hadoop实战 第二版带书签 免费下载

    Hadoop实战中文版.PDF

    《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。 《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读...

    hadoop实战全套视频

    hadoop实战全套视频,高质量hadoop视频资料,你值得拥有

    《Hadoop实战》中文版电子书下载

    《Hadoop实战》中文版电子书下载

    《Hadoop实战》PDF版本下载.txt

    《Hadoop实战》PDF版本下载

    Hadoop实战 第2版

    Hadoop 实战第二版,对整个Hadoop体系进行全面的讲解。

    hadoop实战源代码Java

    hadoop实战源代码,包含Java操作HDFS文件的上传、下载、删除等功能

    《Hadoop实战》(Chuck Lam)

    很好的一本hadoop实战书籍,学习hadoop必备参考资料。

    Hadoop实战【电子书下载】.PDF

    Hadoop实战【电子书下载】.PDF、

    Hadoop实战大数据大作业

    一个基于Hadoop平台进行的单词统计系统,其中包含了伪分布架构,并且包含HDFS数据存储,结合Java后台利用Mapreduce架包进行单词的统计与分析。包含了完整的实践过程,内涵源代码,以及实验命令,内容丰富,实验过程...

    Hadoop实战_影印版

    《Hadoop实战》作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地...

Global site tag (gtag.js) - Google Analytics