`
pftzzg
  • 浏览: 9718 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
参考:   http://f.dataguru.cn/thread-54454-1-1.htmlhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4/SqoopUserGuide.html   虚拟机环境:   redhat 5 软件版本:   下面是CDH3和SQOOP 1.2.0的下载地址 http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gzhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.ta ...
  参考:   http://www.dataguru.cn/forum.php?mod=viewthread&tid=39857   http://blog.sina.com.cn/s/blog_701a48e7010189rc.html   http://www.chenjunlu.com/2012/12/trying-with-oracle-loader-for-hadoop/   http://f.dataguru.cn/thread-39092-1-1.html     os:rhel-server-5.4-x86_64-dvd   jdk版本为: ...
  1)安装JAVA 2)SSH免密码 3)解压hadoop 这些安装与 1.03 一样。 1.03   的安装,请参照: http://pftzzg.iteye.com/blog/1910153       4)设置   a)     [root@centerOsMaster home]# vim /etc/profile        export JAVA_HOME=/usr/java/jdk1.6.0_31 export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/ ...
  简称 Dn   全称  datanode    保存Block   启动DN线程的时候会向NN汇报block信息   通过向NN发送心跳保持与其联系(3秒一次),如果NN 10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DN       简称Nn 全称 namenode   NameNode主要功能提供名称查询服务,它是一个jetty服务器   NameNode保存metadate信息包括   文件owership和permissions   文件包含哪些块   Block保存在哪个DataNode(由Data ...
  参考:   http://www.linuxidc.com/Linux/2012-02/54485.htm   Hadoop的核心组件在一起工作时如下图所示: 图4.4高层MapReduce工作流水线         MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定“标识物”与其关联。因此,任意的mapper都可以处理任意的输入文件。每一个mapper会加载一些存储在运行节点本地的文件集 ...

7-MapReduce入门

 
    MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算   通俗的说就是将一个大任务分成多个小任务并行完成,然后合并小任务的结果,得到最终结果。 1)打包注意:  一定要选择一个MAIN,不然不会运行。   2)          3)输出目录是HADOOP自己创建的。如果有这个目录,一定要删除。如下:

6-HDFS文件系统

 
  使用HDFS储存文件优点:   1,  扩展方便,只需要增加datanode就可以立刻获得更大的储存空间和更好的数据访问速度   2,可以提供较高的数据库安全性   3,API接口丰富,方便各种不同的客户端调用  

4-secondarynamenode

 
  Namenode的工作特点   Namenode始终在内存中保存metedata,用于处理“读请求”   到有“写请求”到来时,namenode会首先写editlog到磁盘,成功返回后,才会修改内存,并且向客户端返回   Hadoop会维护一个fsimage文件,也就是namenode中metedata的镜像,但是fsimage不会随时与namenode内存中的metedata保持一致,而是每隔一段时间通过合并editlog来更新内容。Secondary namenode就是用来更新fsimage的。           secondarynamenode的工作 ...

3-hadoop命令

 
  1、查看指定目录下内容   hadoop dfs –ls [文件目录]   eg: hadoop dfs –ls /user/   2、打开某个已存在文件   hadoop dfs –cat [file_path]   eg:hadoop dfs -cat /user/data.txt   3、将本地文件存储至hadoop   hadoop fs –put [本地地址] [hadoop目录]   hadoop fs –put /home/t/file.txt  /user/t     (file.txt是文件名)   4、将本地文件夹存储至had ...

2-集群安装

 
  1)准备环境   hostname ip 作用   station1 192.168.80.51 Namenaode jobtracher datanode tasktracher  
 1)确认安装了JDK,没有如下安装   [root@primary ~]# cd /home [root@primary home]# cp jdk-6u31-linux-i586-rpm.bin /usr/local/ [root@primary home]# cd /usr/local/ [root@primary local]# chmod +x jdk-6u31-linux-i586-rpm.bin [root@primary local]# ./jdk-6u31-linux-i586-rpm.bin   Press Enter to continue..... ...
Global site tag (gtag.js) - Google Analytics