【3】Hadoop中常出现的错误以及解决方法

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 7659 次

锁定老帖子主题：【3】Hadoop中常出现的错误以及解决方法精华帖 (1) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
chakey 等级: 性别: 文章: 30 积分: 210 来自: 水星	发表时间：2009-11-14 最后修改：2011-02-25 相关推荐: EXCEL VBA从入门到精通第八章：Excel VBA用户界面设计 vb6读取excel文件 Excel Vba快速界面设计入门【Excel】单元格如何实现联动（同步更新）-VBA宏方法 VB6.0调用Excel制作任意表格更多相关推荐数据库 1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。修改办法：修改2个文件。 /etc/security/limits.conf vi /etc/security/limits.conf 加上： * soft nofile 102400 * hard nofile 409600 $cd /etc/pam.d/ $sudo vi login 添加 session required /lib/security/pam_limits.so 2：Too many fetch-failures Answer: 出现这个问题主要是结点间的连通不够全面。 1) 检查、/etc/hosts 要求本机ip 对应服务器名要求要包含所有的服务器ip + 服务器名 2) 检查 .ssh/authorized_keys 要求包含所有服务器（包括其自身）的public key 3：处理速度特别的慢出现map很快但是reduce很慢而且反复出现 reduce=0% Answer: 结合第二点，然后修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000 4：能够启动datanode，但无法访问，也无法结束的错误在重新格式化一个新的分布式文件时，需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除，同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData，在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时，每个存储的名字空间都对应了建立时间的那个版本（可以查看/home/hadoop /NameData/current目录下的VERSION文件，上面记录了版本信息），在重新格式化新的分布式系统文件时，最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。注意：删除是个很危险的动作，不能确认的情况下不能删除！！做好删除的文件等通通备份！！ 5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log 出现这种情况大多是结点断了，没有连接上。 6：java.lang.OutOfMemoryError: Java heap space 出现这种异常，明显是jvm内存不够得原因，要修改所有的datanode的jvm内存大小。 Java -Xms1024m -Xmx4096m 一般jvm的最大内存使用应该为总内存大小的一半，我们使用的8G内存，所以设置为4096m，这一值可能依旧不是最优的值。（其实对于最好设置为真实物理内存大小的0.8） 7：出现map%,但是呢reduce到98%左右的时候呢，就直接进failedjobs了解决办法：检查mapred.map.tasks是不是设置的太多了，设置太多的话会导致处理大量的小文件检查mapred.reduce.parallel.copies是否设置合适。 8: 系统根目录下的/tmp文件夹是不可以删除的否则bin/hadoop jps 会出现异常： Exception in thread "main" java.lang.NullPointerException at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127) at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133) at sun.tools.jps.Jps.main(Jps.java:45) 同时 bin/hive Unable to create log directory /tmp/hadoopuser 2：Too many fetch-failures Answer: 出现这个问题主要是结点间的连通不够全面。 1) 检查、/etc/hosts 要求本机ip 对应服务器名要求要包含所有的服务器ip + 服务器名 2) 检查 .ssh/authorized_keys 要求包含所有服务器（包括其自身）的public key 3：处理速度特别的慢出现map很快但是reduce很慢而且反复出现 reduce=0% Answer: 结合第二点，然后修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000 4：能够启动datanode，但无法访问，也无法结束的错误在重新格式化一个新的分布式文件时，需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除，同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData，在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时，每个存储的名字空间都对应了建立时间的那个版本（可以查看/home/hadoop /NameData/current目录下的VERSION文件，上面记录了版本信息），在重新格式化新的分布式系统文件时，最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。注意：删除是个很危险的动作，不能确认的情况下不能删除！！做好删除的文件等通通备份！！ 5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log 出现这种情况大多是结点断了，没有连接上。 6：java.lang.OutOfMemoryError: Java heap space 出现这种异常，明显是jvm内存不够得原因，要修改所有的datanode的jvm内存大小。 Java -Xms1024m -Xmx4096m 一般jvm的最大内存使用应该为总内存大小的一半，我们使用的8G内存，所以设置为4096m，这一值可能依旧不是最优的值。（其实对于最好设置为真实物理内存大小的0.8） 7：出现map%,但是呢reduce到98%左右的时候呢，就直接进failedjobs了解决办法：检查mapred.map.tasks是不是设置的太多了，设置太多的话会导致处理大量的小文件检查mapred.reduce.parallel.copies是否设置合适。 8: 系统根目录下的/tmp文件夹是不可以删除的否则bin/hadoop jps 会出现异常： Exception in thread "main" java.lang.NullPointerException at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127) at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133) at sun.tools.jps.Jps.main(Jps.java:45) 同时 bin/hive Unable to create log directory /tmp/hadoopuser 2：Too many fetch-failures Answer: 出现这个问题主要是结点间的连通不够全面。 1) 检查、/etc/hosts 要求本机ip 对应服务器名要求要包含所有的服务器ip + 服务器名 2) 检查 .ssh/authorized_keys 要求包含所有服务器（包括其自身）的public key 3：处理速度特别的慢出现map很快但是reduce很慢而且反复出现 reduce=0% Answer: 结合第二点，然后修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000 4：能够启动datanode，但无法访问，也无法结束的错误在重新格式化一个新的分布式文件时，需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除，同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData，在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时，每个存储的名字空间都对应了建立时间的那个版本（可以查看/home/hadoop /NameData/current目录下的VERSION文件，上面记录了版本信息），在重新格式化新的分布式系统文件时，最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。注意：删除是个很危险的动作，不能确认的情况下不能删除！！做好删除的文件等通通备份！！ 5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log 出现这种情况大多是结点断了，没有连接上。 6：java.lang.OutOfMemoryError: Java heap space 出现这种异常，明显是jvm内存不够得原因，要修改所有的datanode的jvm内存大小。 Java -Xms1024m -Xmx4096m 一般jvm的最大内存使用应该为总内存大小的一半，我们使用的8G内存，所以设置为4096m，这一值可能依旧不是最优的值。（其实对于最好设置为真实物理内存大小的0.8） 7：出现map%,但是呢reduce到98%左右的时候呢，就直接进failedjobs了解决办法：检查mapred.map.tasks是不是设置的太多了，设置太多的话会导致处理大量的小文件检查mapred.reduce.parallel.copies是否设置合适。 8: 系统根目录下的/tmp文件夹是不可以删除的（jps is based on jvmstat and it needs to be able to secure a memory mapped file on the temporary file system. ）否则bin/hadoop jps 会出现异常： Exception in thread "main" java.lang.NullPointerException at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127) at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133) at sun.tools.jps.Jps.main(Jps.java:45) 同时 bin/hive Unable to create log directory /tmp/hadoopuser 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

calorie520 等级: 初级会员性别: 文章: 16 积分: 40 来自: 上海	发表时间：2010-08-20 参考你的方法一，还是报一下错误： [hadoop@localhost hadoop-0.20.2]$ hadoop jar hadoop-0.20.2-examples.jar wordcount input output 10/08/20 17:28:42 INFO input.FileInputFormat: Total input paths to process : 2 10/08/20 17:28:42 INFO mapred.JobClient: Running job: job_201008111433_0004 10/08/20 17:28:43 INFO mapred.JobClient: map 0% reduce 0% 10/08/20 17:28:52 INFO mapred.JobClient: map 100% reduce 0% 10/08/20 17:29:01 INFO mapred.JobClient: map 100% reduce 16% 10/08/20 17:29:04 INFO mapred.JobClient: map 100% reduce 0% 10/08/20 17:29:06 INFO mapred.JobClient: Task Id : attempt_201008111433_0004_r_000000_0, Status : FAILED Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out. 10/08/20 17:29:06 WARN mapred.JobClient: Error reading task outputConnection refused 10/08/20 17:29:06 WARN mapred.JobClient: Error reading task outputConnection refused
返回顶楼	回帖地址 0 0 请登录后投票

chakey 等级: 性别: 文章: 30 积分: 210 来自: 水星	发表时间：2010-10-12 calorie520 写道参考你的方法一，还是报一下错误： [hadoop@localhost hadoop-0.20.2]$ hadoop jar hadoop-0.20.2-examples.jar wordcount input output 10/08/20 17:28:42 INFO input.FileInputFormat: Total input paths to process : 2 10/08/20 17:28:42 INFO mapred.JobClient: Running job: job_201008111433_0004 10/08/20 17:28:43 INFO mapred.JobClient: map 0% reduce 0% 10/08/20 17:28:52 INFO mapred.JobClient: map 100% reduce 0% 10/08/20 17:29:01 INFO mapred.JobClient: map 100% reduce 16% 10/08/20 17:29:04 INFO mapred.JobClient: map 100% reduce 0% 10/08/20 17:29:06 INFO mapred.JobClient: Task Id : attempt_201008111433_0004_r_000000_0, Status : FAILED Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out. 10/08/20 17:29:06 WARN mapred.JobClient: Error reading task outputConnection refused 10/08/20 17:29:06 WARN mapred.JobClient: Error reading task outputConnection refused 请查看下你的机器是32位的还是64位的? 如果是64位的话需要做如下更改: "添加 session required /lib64/security/pam_limits.so "
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 综合技术版

跳转论坛: