11_sqoop_oracle_hive 数据交换实验

博客分类：

hadoop

参考： http://f.dataguru.cn/thread-54454-1-1.htmlhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4/SqoopUserGuide.html 虚拟机环境： redhat 5 软件版本：下面是CDH3和SQOOP 1.2.0的下载地址 http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gzhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.ta ...

2013-07-28 01:32
浏览 948
评论(0)
分类:互联网

10-Oracle大数据OLH连接

博客分类：

hadoop

参考： http://www.dataguru.cn/forum.php?mod=viewthread&tid=39857 http://blog.sina.com.cn/s/blog_701a48e7010189rc.html http://www.chenjunlu.com/2012/12/trying-with-oracle-loader-for-hadoop/ http://f.dataguru.cn/thread-39092-1-1.html os:rhel-server-5.4-x86_64-dvd jdk版本为: ...

2013-07-21 13:11
浏览 1132
评论(0)
分类:互联网

9-hadoop-0.20 单节点安装

博客分类：

hadoop

1）安装JAVA 2)SSH免密码 3）解压hadoop 这些安装与 1.03 一样。 1.03 的安装，请参照： http://pftzzg.iteye.com/blog/1910153 4)设置 a) [root@centerOsMaster home]# vim /etc/profile export JAVA_HOME=/usr/java/jdk1.6.0_31 export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/ ...

2013-07-21 11:45
浏览 885
评论(0)
分类:互联网

5-Data/name/secondaryname/node

博客分类：

hadoop

简称 Dn 全称 datanode 保存Block 启动DN线程的时候会向NN汇报block信息通过向NN发送心跳保持与其联系（3秒一次），如果NN 10分钟没有收到DN的心跳，则认为其已经lost，并copy其上的block到其它DN 简称Nn 全称 namenode NameNode主要功能提供名称查询服务，它是一个jetty服务器 NameNode保存metadate信息包括文件owership和permissions 文件包含哪些块 Block保存在哪个DataNode（由Data ...

2013-07-21 02:03
浏览 1009
评论(0)
分类:互联网

8-Hadoop MapReduce数据流

博客分类：

hadoop

参考： http://www.linuxidc.com/Linux/2012-02/54485.htm Hadoop的核心组件在一起工作时如下图所示：图4.4高层MapReduce工作流水线　　MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：mappers没有特定“标识物”与其关联。因此，任意的mapper都可以处理任意的输入文件。每一个mapper会加载一些存储在运行节点本地的文件集 ...

2013-07-20 21:27
浏览 799
评论(0)
分类:互联网

7-MapReduce入门

博客分类：

hadoop

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算通俗的说就是将一个大任务分成多个小任务并行完成，然后合并小任务的结果，得到最终结果。 1）打包注意：一定要选择一个MAIN，不然不会运行。 2） 3）输出目录是HADOOP自己创建的。如果有这个目录，一定要删除。如下：

2013-07-20 20:04
浏览 586
评论(0)
分类:互联网

6-HDFS文件系统

博客分类：

hadoop

使用HDFS储存文件优点: 1, 扩展方便，只需要增加datanode就可以立刻获得更大的储存空间和更好的数据访问速度 2，可以提供较高的数据库安全性 3，API接口丰富，方便各种不同的客户端调用

2013-07-20 19:25
浏览 602
评论(0)
分类:互联网

4-secondarynamenode

博客分类：

hadoop

Namenode的工作特点 Namenode始终在内存中保存metedata，用于处理“读请求” 到有“写请求”到来时，namenode会首先写editlog到磁盘，成功返回后，才会修改内存，并且向客户端返回 Hadoop会维护一个fsimage文件，也就是namenode中metedata的镜像，但是fsimage不会随时与namenode内存中的metedata保持一致，而是每隔一段时间通过合并editlog来更新内容。Secondary namenode就是用来更新fsimage的。 secondarynamenode的工作 ...

2013-07-20 18:45
浏览 671
评论(0)
分类:互联网

3-hadoop命令

博客分类：

hadoop

1、查看指定目录下内容 hadoop dfs –ls [文件目录] eg: hadoop dfs –ls /user/ 2、打开某个已存在文件 hadoop dfs –cat [file_path] eg:hadoop dfs -cat /user/data.txt 3、将本地文件存储至hadoop hadoop fs –put [本地地址] [hadoop目录] hadoop fs –put /home/t/file.txt /user/t (file.txt是文件名) 4、将本地文件夹存储至had ...

2013-07-20 18:08
浏览 763
评论(0)
分类:互联网

2-集群安装

博客分类：

hadoop

1）准备环境 hostname ip 作用 station1 192.168.80.51 Namenaode jobtracher datanode tasktracher

2013-07-19 14:45
浏览 960
评论(0)
分类:互联网

1-hadoop-1.03单节点的安装

博客分类：

hadoop

1）确认安装了JDK,没有如下安装 [root@primary ~]# cd /home [root@primary home]# cp jdk-6u31-linux-i586-rpm.bin /usr/local/ [root@primary home]# cd /usr/local/ [root@primary local]# chmod +x jdk-6u31-linux-i586-rpm.bin [root@primary local]# ./jdk-6u31-linux-i586-rpm.bin Press Enter to continue..... ...

2013-07-19 14:20
浏览 1363
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

11_sqoop_oracle_hive 数据交换实验

10-Oracle大数据OLH连接

9-hadoop-0.20 单节点安装

5-Data/name/secondaryname/node

8-Hadoop MapReduce数据流

7-MapReduce入门

6-HDFS文件系统

4-secondarynamenode

3-hadoop命令

2-集群安装

1-hadoop-1.03单节点的安装

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>