`
xiangxingchina
  • 浏览: 507723 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

HadHoop分布式框架配置(二)

阅读更多

我们假定,你已经下载了Hadoop的一个版本,并解压完毕。

我们配置了两台服务器:

1.了让大家开发和研究的方便,现做了两台 Debian/Linux 服务器。hadoop-1: 192.168.60.41 hadoop-2: 192.168.60.42 没装图形界面,
只能通过 ssh 连入。 root:abc123 为了不互相干扰,大家用 root 进入后最好自建新的用户来做实现。
数据库集群研究,分布式应用研究, Linux 集群研究 都可以使用的。
有什么需要,或需要新的服务器来做试验,可以跟我联系。
2.
/*
1.首先进入到HOME目录下将自己原来的用户和目录删除cd /home
2.删除用户deluser tuping.记得在两个服务器都要删除掉
3.然后LS,查看目录下所有的目录,然后删除rm -r tuping

*/
在linux 远程登录 155 转到 root 用户 mount -t smbfs -o user=jobcn,password=jobcn //192.168.61.155/share /mnt 然后 cd /mnt ls 就会看到所有目录


分布式计算开源框架Hadoop入门实践:
http://blog.csdn.net/cenwenchu79/archive/2008/08/29/2847529.aspx


Subject: 分布式应用框架 Hadoop 安装


> 假设现有两台装有 Debian/Linux 的电脑,它们分别命名为:
> hadoop-1.jobcn.com 简称 h1,IP为:192.168.80.101
> hadoop-2.jobcn.com 简称 h2,IP为:192.168.80.102
>
> 在 h1,h2上执行
>
/*
> #apt-get install sun-java6-jdk
> #apt-get install ssh
> #apt-get install rsync

> #nano /etc/hosts
> 增加两行:
> 192.168.80.101    hadoop-1.jobcn.com   h1
> 192.168.80.102    hadoop-2.jobcn.com   h2
>
*/
以上的注释代码都已经执行过了不用执行
3.
> #adduser hadoop
> 密码假设为:abc123
> #su hadoop--一定要记得切换用户
>
> 在 h1 上执行(在这注意在H2上只要建立一个用户就可以了)
> $cd ~
>mkdir .ssh 建立.SSH的目录
>cp hadoop-0.18.1.tar.gz /home/tuping将hadoop-0.18.1.tar.gz这个包考到自己目录的文件夹下
> $ssh-keygen -t dsa -P '' -f .ssh/id_dsa
> $cat .ssh/id_dsa.pub >> .ssh/authorized_keys
> $scp -r .ssh hadoop-2.jobcn.com:/home/tuping/
> $wget http://dev.xiaonei.com/apache-mirror/hadoop/core/hadoop-0.18.1/hadoop-0.18.1.tar.gz--no user--这句不用执行。
> $tar zxvf hadoop-0.18.1.tar.gz--将包解压
> $cd hadoop-0.18.1
>
> $nano conf/hadoop-env.sh--编辑hadoop-env.sh文件(ctrl + x保存退出)
> 增加一行: export JAVA_HOME=/usr/lib/jvm/java-6-sun
>
> $nano conf/slaves
> 修改为:
> hadoop-1.jobcn.com
> hadoop-2.jobcn.com
>
> $nano conf/hadoop-site.xml
> 修改如下:
 <configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://hadoop-1.jobcn.com:9000/</value>
  </property>
  <property>
    <name>mapred.job.tracker</name>
    <value>hadoop-1.jobcn.com:9001</value>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/tuping/tmp</value>
  </property>
  <property>
    <name>dfs.name.dir</name>
    <value>/home/tuping/dfs/name</value>
  </property>
  <property>
    <name>dfs.data.dir</name>
    <value>/home/tuping/dfs/data</value>
  </property>
 </configuration>

/*

  这些属性的有着如下的意思:

 

   fs.default.name - 这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。 DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的 块列表。

 

   dfs.data.dir - 这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样 的。但如果每台机器上的这个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值是/temp, 这个路径只能用于测试的目的,因为,它很可能会丢失掉一些数据。所以,这个值最好还是被覆盖。

 

   dfs.name.dir - 这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。

*/
>
> $scp -r ../hadoop-0.18.1 hadoop-2.jobcn.com:/home/tuping/--是链接服务器2。需要等待一段时间
> $bin/hadoop namenode -format---格式化一下我们刚刚配置的hadoop文件系统。
> $bin/start-all.sh--(或者)bin/start-dfs.sh(这只是启动两种不同的模式)


-----
> $bin/hadoop fs -put /initrd.img initrd.img
> $bin/hadoop fs -ls
>
> 查看运行情况:
> http://192.168.60.41:50070/
> http://192.168.60.41:50030/
>

----
退出:bin/stop-dfs.sh
必须位于BIN的目录才能执行stop-dfs.sh命令
> $bin/stop-all.sh

分享到:
评论

相关推荐

    Hadhoop框架学习(1)

    目录Hadhoop框架学习(1)一、基本概念1、分布式系统2、Hadhoop简介3、TCP协议和UDP协议(1)TCP协议(2)UDP协议4、Socket原理5、RPC协议二、HDFS1、组成(1)namenode(2)secondaryNamenode(3)datanode2、读取...

    Hadhoop框架学习(2)之MapReduce简述

    目录Hadhoop框架学习(2)之MapReduce简述一、学习MapReduce的意义二、MapReduce的基本概念 Hadhoop框架学习(2)之MapReduce简述   本文主要理解下面这幅MapReduce工作的流程图 一、学习MapReduce的意义   ...

    分布式文件系统Hadoop

    hadoop 权威指南、命令手册、开发者入门专刊、开发者第一期、开发者第二期、开发者第三期、hadoop和hbase安装使用、hadhoop的安装与使用、hadoop的mapReduce执行过程介绍

    hadoop开发者文档

    10、Mapreduce中value集合的二次排序 ....................... - 38 - 11、Hive SQL手册翻译 ................................... - 47 12、Mahout Kmeans简介 .................................... - 57 -

    hadhoop开发学习

    学习大数据 的处理,时代的趋势,hadoop是绕不过去的

    Hadoop权威指南-Hadoop中文文档-第二版本

    Hadoop权威指南-Hadoop中文文档-第二版本.

    论文研究-Hadoop平台在云计算中的应用 .pdf

    Hadoop平台在云计算中的应用,王宏宇,,云计算是当前比较热门的新兴技术之一,受到业界的广泛关注。Hadoop是一个可实现大规模分布式计算的开源软件平台,因此被广泛应用在

    hadoop-mapreduce-client-core-2.5.1-API文档-中英对照版.zip

    赠送jar包:hadoop-mapreduce-client-core-2.5.1.jar; 赠送原API文档:hadoop-mapreduce-client-core-2.5.1-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-core-2.5.1-sources.jar; ...

    Hadoop源代码分析(MapTask辅助类 I)

    Hadoop的MapTask辅助类源代码分析(I)

    基于Hadoop的小文件量化方法研究

    Hadoop[1]是一个具有高扩展性、高可靠性、高容错性和高效性的开源软件系统,它已成为互联网、金融、生物信息学等领域进行大数据分析和处理的代表性云计算平台。它由Hadoop Distributed File System(HDFS)[2]和...

    ImprovedReliableStreamingProcessingApacheStormasexample.pdf

    在Hadhoop summit 2016上,Frank Zhao, EMC CTO Office, Fenghao Zhang , Microsoft Bing, Yusong Lv , Peking University分享了题为《Improved Reliable Streaming Processing: Apache Storm as example》,就...

    Python用户画像学习文章

    用户画像案例分析,详细讲解各行业应用技巧,包括《大数据用户画像的方法及营销实践》、《电商平台下用户画像的设计与分析》等文章

    AContainerbasedSizingFrameworkforApacheHadoopSparkClusters.pdf

    在Hadhoop summit 2016上,Akiyoshi SUGIKI, Phyo Thandar Thant,Hokkaido University分享了题为《A Container-based Sizing Framework for Apache Hadoop/Spark Clusters》,就介绍北海道大学学术云,介绍基于...

    HowtoovercomemysteriousproblemscausedbylargeandmultitenanthadoopclusteratRakuten.pdf

    在Hadhoop summit 2016上,Tomomichi Hirano ,EC Core Technology Department, Rakuten Inc分享了题为《How to overcome mysterious problems caused by large and multi-tenant hadoop cluster at Rakuten》,就...

    WhyismyHadoopjobslow.pdf

    在Hadhoop summit 2016上,Bikas Saha分享了题为《Why is my Hadoop* job slow》,就度量和监视,记录和关联,追踪和分析等方面的内容做了深入的分析。

    EnterpriseDataClassificationandProvenance.pdf

    在Hadhoop summit 2016上,Apache Atlas, Shwetha Shivalingamurthy Suma Shivaprasad分享了题为《Enterprise Data Classification and Provenance》,就大数据应用,Atlas概述功能和未来发展等方面的内容做了深入...

    StreamlineHadoopDevOpswithApacheAmbari.pdf

    在Hadhoop summit 2016上,Jayush Luniya , Tokyo Hadoop Summit分享了题为《Streamline Hadoop DevOps with Apache Ambari》,就介绍Apache Ambari,Ambari 2.4中的企业特性等等方面的内容做了深入的分析。

    TheAvantgardeofApacheNiFi.pdf

    在Hadhoop summit 2016上,Joe Percivall分享了题为《The Avant-garde of Apache NiFi》,就介绍 NiFi、NiFi 1.0.0新特性,介绍MiNiFi及其应用成果等方面的内容做了深入的分析。

    ArchitectingaMultiTenantedPlatform.pdf

    在Hadhoop summit 2016上,Hurdles介绍,使用示范和demo演示分享了题为《Architecting a Multi-Tenanted Platform 》,就Hurdles介绍,使用示范和demo演示等方面的内容做了深入的分析。

    DataflowwithApacheNiFi.pdf

    在Hadhoop summit 2016上,Aldrin Piri -分享了题为《Dataflow with Apache NiFi》,就什么是数据流,数据流的挑战是什么,Apache NiFi架构等方面的内容做了深入的分析。

Global site tag (gtag.js) - Google Analytics