`
thrillerzw
  • 浏览: 139163 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop

阅读更多

下载:http://mirrors.cnnic.cn/apache/hadoop/common/

   http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/

 

安装:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html

 

mr  例子:http://hi.baidu.com/whyang2006/item/436a720c4e15a013addc70c4

 

主启动、停止:

$ start-all.sh

$ stop-all.sh

[root@Master ~]# su - hadoop
-bash-3.2$ /usr/hadoop/bin/start-all.sh 
starting namenode, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-namenode-Master.Hadoop.out
192.168.1.101: starting datanode, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-datanode-Slave1.Hadoop.out
192.168.1.100: starting secondarynamenode, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-secondarynamenode-Master.Hadoop.out
starting jobtracker, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-jobtracker-Master.Hadoop.out
192.168.1.101: starting tasktracker, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-tasktracker-Slave1.Hadoop.out

 

安装成功测试:

主服务器:

-bash-3.2$ jps

10030 JobTracker

9790 NameNode

10143 Jps

9949 SecondaryNameNode

从服务器

-bash-3.2$ jps

11579 TaskTracker

11501 DataNode

11660 Jps

 

问题1:不能启动从节点

2013-12-24 00:49:01,198 ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because org.apache.hadoop.util.DiskChecker$DiskErrorException: No mapred local directories are writable

2013-12-24 00:48:59,819 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Invalid directory in dfs.data.dir: can not create directory: /usr/hadoop/tmp/dfs/data

解决:chown -R hadoop:hadoop  hadoop

 

ssh无密传输:

su - hadoop

生成非对称加密的私钥和公钥

ssh-keygen -t rsa -P ''

一路回车,默认值。

运行命令后会再/home/hadoop 目录下生成.ssh的隐藏文件夹,运行ll -a 查看是否生成成功

[hadoop@Master ~]$ ssh-keygen -t rsa -P ''

Generating public/private rsa key pair.

Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): 

Created directory '/home/hadoop/.ssh'.

Your identification has been saved in /home/hadoop/.ssh/id_rsa.

Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.

The key fingerprint is:

c0:e3:2e:a5:38:a3:0d:25:0a:50:93:57:28:4d:b9:60 hadoop@Master.Hadoop

[hadoop@Master ~]$ ll -a

total 16

drwx------ 3 hadoop hadoop 4096 Dec 19 07:44 .

drwxr-xr-x 4 root   root   4096 Aug 16  2012 ..

drwx------ 2 hadoop hadoop 4096 Dec 19 07:44 .ssh

 

修改授权文件的权限

chmod 600 ~/.ssh/authorized_keys

切换到root用户修改sshd_config文件,使ssh支持无密码登录

su - root

vi /etc/ssh/sshd_config

去掉注释

RSAAuthentication yes # 启用 RSA 认证

PubkeyAuthentication yes # 启用公钥私钥配对认证方式

AuthorizedKeysFile .ssh/authorized_keys #公钥文件路径(和上面生成的文件同

 

将master节点上的公钥复制到slave节点的/home/hadoop目录下

scp ~/.ssh/id_rsa.pub hadoop@192.168.1.101:~/

hadoop用户连接slave机器

创建.ssh的隐藏文件夹

mkdir ~/.ssh

修改权限

chmod 700 ~/.ssh

将master的公钥信息加入到slave的授权文件中

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

完成从slave ssh登录master的过程,master同样需要slave的公钥id_rsa.pub

 测试ssh成功:

ssh 192.168.1.101

如果没有提示输入密码则无密码登录设置成功否则设置失败

  

pig hive   http://zhidao.baidu.com/link?

url=6N3qTl2WrtMZ6cl1sPekVrTjdFxtSBTGvQGEuMwuEK0WmAVWhCVmayS-JzfkZiu0GqFWm1WKXXdrsPmHfQVttK


# hadoop job -list
0 jobs currently running
JobId   State   StartTime       UserName        Priority        SchedulingInfo

 --------------

参考: http://blog.csdn.net/yy_done/article/details/7006489
cp /usr/hadoop/src/examples/org/apache/hadoop/examples/WordCount.java ~
mkdir classes
javac -classpath /usr/hadoop/hadoop-core-1.2.1.jar:/usr/hadoop/lib/commons-cli-1.2.jar -d classes WordCount.java 
jar -cvf wordcount.jar -C classes/ .
hadoop jar wordcount.jar org.apache.hadoop.examples.WordCount input output 

-bash-3.2$ hadoop fs -put file01 input
-bash-3.2$ hadoop fs -put file02 input
-bash-3.2$ hadoop jar wordcount.jar org.apache.hadoop.examples.WordCount input output
14/02/23 23:28:09 INFO input.FileInputFormat: Total input paths to process : 2
14/02/23 23:28:09 INFO util.NativeCodeLoader: Loaded the native-hadoop library
14/02/23 23:28:09 WARN snappy.LoadSnappy: Snappy native library not loaded
14/02/23 23:28:10 INFO mapred.JobClient: Running job: job_201402232134_0015
14/02/23 23:28:11 INFO mapred.JobClient:  map 0% reduce 0%
14/02/23 23:28:29 INFO mapred.JobClient:  map 100% reduce 0%
14/02/23 23:28:37 INFO mapred.JobClient:  map 100% reduce 33%
14/02/23 23:28:38 INFO mapred.JobClient:  map 100% reduce 100%
14/02/23 23:28:40 INFO mapred.JobClient: Job complete: job_201402232134_0015
14/02/23 23:28:40 INFO mapred.JobClient: Counters: 29
14/02/23 23:28:40 INFO mapred.JobClient:   Job Counters
14/02/23 23:28:40 INFO mapred.JobClient:     Launched reduce tasks=1
14/02/23 23:28:40 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=33728
14/02/23 23:28:40 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
14/02/23 23:28:40 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
14/02/23 23:28:40 INFO mapred.JobClient:     Launched map tasks=2
14/02/23 23:28:40 INFO mapred.JobClient:     Data-local map tasks=2
14/02/23 23:28:40 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=9437
14/02/23 23:28:40 INFO mapred.JobClient:   File Output Format Counters
14/02/23 23:28:40 INFO mapred.JobClient:     Bytes Written=33
14/02/23 23:28:40 INFO mapred.JobClient:   FileSystemCounters
14/02/23 23:28:40 INFO mapred.JobClient:     FILE_BYTES_READ=55
14/02/23 23:28:40 INFO mapred.JobClient:     HDFS_BYTES_READ=268
14/02/23 23:28:40 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=164949
14/02/23 23:28:40 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=33
14/02/23 23:28:40 INFO mapred.JobClient:   File Input Format Counters
14/02/23 23:28:40 INFO mapred.JobClient:     Bytes Read=38
14/02/23 23:28:40 INFO mapred.JobClient:   Map-Reduce Framework
14/02/23 23:28:40 INFO mapred.JobClient:     Map output materialized bytes=61
14/02/23 23:28:40 INFO mapred.JobClient:     Map input records=2
14/02/23 23:28:40 INFO mapred.JobClient:     Reduce shuffle bytes=61
14/02/23 23:28:40 INFO mapred.JobClient:     Spilled Records=8
14/02/23 23:28:40 INFO mapred.JobClient:     Map output bytes=62
14/02/23 23:28:40 INFO mapred.JobClient:     CPU time spent (ms)=12970
14/02/23 23:28:40 INFO mapred.JobClient:     Total committed heap usage (bytes)=248127488
14/02/23 23:28:40 INFO mapred.JobClient:     Combine input records=6
14/02/23 23:28:40 INFO mapred.JobClient:     SPLIT_RAW_BYTES=230
14/02/23 23:28:40 INFO mapred.JobClient:     Reduce input records=4
14/02/23 23:28:40 INFO mapred.JobClient:     Reduce input groups=4
14/02/23 23:28:40 INFO mapred.JobClient:     Combine output records=4
14/02/23 23:28:40 INFO mapred.JobClient:     Physical memory (bytes) snapshot=327409664
14/02/23 23:28:40 INFO mapred.JobClient:     Reduce output records=4
14/02/23 23:28:40 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=1123270656
14/02/23 23:28:40 INFO mapred.JobClient:     Map output records=6
-bash-3.2$ hadoop fs -cat output/part-r-00000 
Bye     1
Goodbye 1
Hadoop  2
World   2

-------------

安装插件:把hadoop-eclipse-plugin-1.2.1.jar  放到eclipse\plugins下,重启eclipse。

eclispe调试worldcount修改如下:

conf.set("mapred.job.tracker", "192.168.1.100:9001"); 
String[] ars = new String[] { "input","output" };
String[] otherArgs = new GenericOptionsParser(conf, ars).getRemainingArgs();

  

eclipse运行报错:ClassNotFoundException: org.apache.hadoop.examples.WordCount$IntSumReducer
解决:eclipse4.2 换位3.7,  hadoop-eclipse-plugin-1.2.1.jar 插件和eclipse4.2不兼容的问题。

-----

查看日志:

more /usr/hadoop/logs/hadoop-hadoop-namenode-Master.Hadoop.log

tail -200  /usr/hadoop/logs/hadoop-hadoop-namenode-Master.Hadoop.log

tail -200  /usr/hadoop/logs/hadoop-hadoop-datanode-Slave1.Hadoop.log

问题1:java.io.IOException: NameNode is not formatted.

解决:hadoop namenode -format

注意:Re-format filesystem in /usr/hadoop/tmp/dfs/name ? (Y or N) Y    注意输入大写Y,小写不行。

问题2:ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /usr/hadoop/tmp/dfs/data: namenode namespaceID = 2053604871; datanode namespaceID = 1352668130

解决:namespaceID 不一致问题。修改了datanode的/usr/hadoop/tmp/dfs/data/current的VERSION文件的namespaceID=2053604871

问题3:java.io.FileNotFoundException: /usr/hadoop/tmp/dfs/name/current/VERSION (Permission denied)

解决:不小心用了root管理员账号启动了start-all.sh,后来取消了,但是还是在/home/hadoop/tmp/生成了一些所有者为root的文件。将文件全部删除 或者改为hadoop用户 # chown -R hadoop:hadoop /usr/hadoop/tmp     

 

分享到:
评论

相关推荐

    hadoop2.7.3 hadoop.dll

    在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....

    Hadoop权威指南 中文版

    本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i...

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    Hadoop下载 hadoop-3.3.3.tar.gz

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...

    hadoop-3.3.4 版本(最新版)

    Apache Hadoop (hadoop-3.3.4.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。官网下载速度非常缓慢,因此将hadoop-3.3.4 版本放在这里,欢迎大家来下载使用! Hadoop 架构是一个开源的、基于 Java 的编程...

    hadoop2.8.5-windows本地开发

    内容概要:windows环境下添加snappy源码,并对2.8.5的apache版本hadoop包进行编译,生成指定的hadoop.dll、snappy.dll文件,方便Windows环境下利用idea工具进行Hadoop、Spark的local模式下代码调试。 版本更新:...

    hadoop winutils 多个版本最全大合集dll,winutils.exe

    hadoop的hadoop.dll和winutils.exe “ Could not locate executable null\bin\winutils.exe in the Hadoop binaries”解决方法:把winutils.exe加入你的hadoop-x.x.x/bin下 包含hadoop.dll, winutils.exe hadoop-...

    Hadoop开发环境的插件hadoop-eclipse-plugin-2.10.1

    Hadoop Eclipse是Hadoop开发环境的插件,用户在创建Hadoop程序时,Eclipse插件会自动导入Hadoop编程接口的jar文件,这样用户就可以在Eclipse插件的图形界面中进行编码、调试和运行Hadop程序,也能通过Eclipse插件...

    Cloudera Hadoop 5&Hadoop高阶管理及调优课程

    Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件代码资料下载。 内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和...

    hadoop最新版本3.1.1全量jar包

    hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...

    Hadoop集群程序设计与开发

    《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...

    hadoop-3.1.3安装包

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合...

    hadoop配置资源 ,hadoop-3.0.0,hadoop.dll,winutils

    调用保存文件的算子,需要配置Hadoop依赖 将文件夹中的 hadoop-3.0.0 解压到电脑任意位置 在Python代码中使用os模块配置:os.environ[‘HADOOP_HOME’] = ‘HADOOP解压文件夹路径’ winutils.exe,并放入Hadoop解压...

    部署全分布模式Hadoop集群 实验报告

    部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...

    Hadoop The Definitive Guide PDF

    书名:Hadoop The Definitive Guide 语言:英文 The rest of this book is organized as follows. Chapter 2 provides an introduction to MapReduce. Chapter 3 looks at Hadoop filesystems, and in particular ...

    Hadoop.Essentials.1784396680

    Title: Hadoop Essentials Author: Shiva Achari Length: 172 pages Edition: 1 Language: English Publisher: Packt Publishing Publication Date: 2015-04-24 ISBN-10: 1784396680 ISBN-13: 9781784396688 Delve ...

    基于Hadoop图书推荐系统源码+数据库.zip

    基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书...

    hadoop-lzo-0.4.20.jar

    hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.20.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.20.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/Mac_OS_X-x86_64-64 下的所有文件 拷到 ...

    hadoop-eclipse-plugin-2.10.0.jar

    Eclipse集成Hadoop2.10.0的插件,使用`ant`对hadoop的jar包进行打包并适应Eclipse加载,所以参数里有hadoop和eclipse的目录. 必须注意对于不同的hadoop版本,` HADDOP_INSTALL_PATH/share/hadoop/common/lib`下的jar包...

Global site tag (gtag.js) - Google Analytics