`
lookqlp
  • 浏览: 341896 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hive执行时找不到文件

    博客分类:
  • hive
阅读更多
hive计算时找不到文件
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.MapOperator: DESERIALIZE_ERRORS:0
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.TableScanOperator: 0 finished. closing...
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.TableScanOperator: 0 forwarded 94880 rows
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.SelectOperator: 1 finished. closing...
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.SelectOperator: 1 forwarded 94880 rows
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.FileSinkOperator: 2 finished. closing...
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.FileSinkOperator: 2 forwarded 0 rows
2014-03-03 11:17:04,153 WARN org.apache.hadoop.mapred.Task: Parent died.  Exiting attempt_201312261829_53653_m_000000_0
2014-03-03 11:17:06,655 WARN org.apache.hadoop.hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/hive-hadoop/hive_2014-03-03_11-12-04_451_5763054601146362237/_task_tmp.-ext-10002/curr_date=2014-03-02/dp_id2=104052569/_tmp.000000_0 File does not exist. [Lease.  Holder: DFSClient_attempt_201312261829_53653_m_000000_0, pendingcreates: 625]
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:1631)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:1622)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1538)
at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java:696)
at sun.reflect.GeneratedMethodAccessor65.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:563)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1388)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1384)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1382)

at org.apache.hadoop.ipc.Client.call(Client.java:1070)
at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:225)
at $Proxy2.addBlock(Unknown Source)
at sun.reflect.GeneratedMethodAccessor15.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:82)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:59)
at $Proxy2.addBlock(Unknown Source)
at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.locateFollowingBlock(DFSClient.java:3510)
at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:3373)
at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.access$2600(DFSClient.java:2589)
at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:2829)

2014-03-03 11:17:06,656 WARN org.apache.hadoop.hdfs.DFSClient: Error Recovery for block null bad datanode[0] nodes == null
2014-03-03 11:17:06,656 WARN org.apache.hadoop.hdfs.DFSClient: Could not get block locations. Source file "/tmp/hive-hadoop/hive_2014-03-03_11-12-04_451_5763054601146362237/_task_tmp.-ext-10002/curr_date=2014-03-02/dp_id2=104052569/_tmp.000000_0" - Aborting...
2014-03-03 11:17:06,666 ERROR ExecMapper: Hit error while closing operators - failing tree
原因:mapred.task.timeout设置时间过短,如上日志,在200秒左右任务状态没有任何变化,hadoop将该任务kill,并清理临时目录,后续遍找不到临时数据了。

修改参数

<property>
<name>mapred.task.timeout</name>
<value>200000</value>
<description>The number of milliseconds before a task will be
terminated if it neither reads an input, writes an output, nor
updates its status string.
</description>
mapred.task.timeout修改称10分钟600000即可。
分享到:
评论

相关推荐

    Windows安装Hive时所需cmd相关命令

    Windows环境下启动hive,执行.\bin\hive,报错 'hive' 不是内部或外部命令,也不是可运行的程序或批处理文件。 Apache Hive后续较新版本bin目录下缺少Windows环境下所需要的cmd相关命令。 Apache-Hive-2.1.1老版本...

    Hive用户指南(Hive_user_guide)_中文版.pdf

    (” n”)以及读取文件数据的方法( Hive 中默认有三个文件格式 TextFile , SequenceFile 以及 RCFile )。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此, Hive 在加载的...

    hive3资源包+安装文档

    因此,hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟 hive 底层封装了Hadoop ,使用类SQL 的hiveSQL 语言实现数据查询,所有hive 的数据都...

    基于hadoop2.85的hive2.3.4安装

    另外还需要说明的是,虽然修改配置文件并不需要你已经把hadoop跑起来,但是本文中用到了hadoop命令,在执行这些命令前你必须确保hadoop是在正常跑着的,而且启动hive的前提也是需要hadoop在正常跑着,所以建议你先将...

    完整图文版 阿里巴巴数据产品平台 大数据与云计算技术系列教程 Hadoop之Hive学习笔记(共63页).pdf

    由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。而在数据库中,不同的...

    camus2hive:一个简单的脚本,可以自动将新的Camus分区映射到现有Hive表的Hive分区

    执行不带参数的脚本以查看其用法和参数说明。 蜂巢表 使用camus2hive的一种方法是预先手动创建Hive表。 有关可与camus2hive一起使用的Hive表定义的示例,请参见create_table文件。 另外,您也可以让脚本自动创建和...

    java6string源码-jet-hive-udf:有用的hiveudf函数,包含日期计算,ip,useragent解析函数,加密解密等

    java6 string源码 [TOC] jet-hive-udf 简介 jet-hive-udf 包含了一些有用的hive ...B=jet-hive-udf-${version}.jar]文件.其中A是包括所有依赖包的jar, B是最小编译jar文件 你也可以直接在发布页下载打

    hive-samples:一组示例说明 hive 的各种功能命令

    蜂巢样本 hive-samples 是一个演示 Apache Hive 各种功能的项目。 依赖关系 Apache Hadoop 2.xy ... 特此授予任何人免费获得本软件副本和相关文档文件(“软件”)的许可,不受限制地处理本软件,包括但不限

    Java版水果管理系统源码-hive-tools:蜂巢工具

    hive-tools 项目介绍 在网易集团内部有大大小小几百套 hive 集群,为了满足网易猛犸大数据平台的元数据统一管理的需求,我们需要将多个分别独立的 hive 集群的元数据信息进行合并,但是不需要移动 HDFS 中的数据文件...

    word分词器java源码-hive_ql_parser:hive_ql_parser

    本文所用到的自绘的图尽量采用graphviz生成,考虑到他们放入word会失真,所以给提供了最原始的生成文件,你可以按照自己的需要生成各种格式,他们都存放在dot_file的目录下。   最后,本文随时会根据作者的喜好和...

    大数据之运维.pptx

    Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为...

    Linux实现文件内容去重及求交并差集

    日常工作中,使用Hive或者Impala查询导出来可能会存在数据重复的现象,但又不想重新执行一遍查询(查询时间稍长,导出文件内容多),因此想到了使用Linux命令将文件的内容重复数据进行去除。 案例如下: 可以看到aaa...

    HiveQueryMRJoin:使用减少端连接将Hive查询转换为Java MapReduce

    减少侧连接的执行方式: 地图1.Mapper通过读取不同的输入文件来启动联接操作,并将所有记录输出到Reducer。 2.标记每条记录,以识别记录从哪个来源到达。 3. map输出的键必须是join键减速器1.Reducer将使用通用密钥...

    Insights:有关各种主题的教程

    RAM内存不足时TPCH 创建dbgen脚本产生资料将数据加载到PostgreSQL PostgreSQL更改数据默认目录使用表空间-处理可伸缩性问题播放CSV文件规模很重要磁盘使用命令df , du 命令mount 以正确的方式将数据加载到Hadoop ...

    大数据-sqoop.pptx

    从 Hive 或 HBase 将数据提取至 HDFS (作为文本或 Avro 文件) 使用 Sqoop 将上一步的输出导出至 RDBMS 不支持按照与 Sqoop 1 相同的解决方法操作 大数据-sqoop全文共16页,当前为第5页。 Sqoop的用途 Sqoop可以在...

    Hue图形化用户界面.rar

    Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。 Hue(图形化用户界面)软件特色 Hue(图形化用户界面)官方版是成熟的开源SQL Assistant,可用于查询任何数据库和...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    技术点2 自动复制文件到HDFS 的机制 技术点3 使用Oozie 定期执行数据导入活动 2.2.3 从数据库中拉数据 技术点4 使用MapReduce 将数据导入数据库 技术点5 使用Sqoop 从MySQL 导入数据 2.2.4 HBase 技术...

    datax支持presto读取

    1、说明:datax支持presto读取,datax规范开发插件,读取presto中数据,可以在presto中配置mysql、postgresql、es、hive等数据库的连接,通过datax执行关联查询,数据存入新的库 2、插件更新:解压文件 prestoreader...

    Hadoop实战(第2版)

    数据逻辑.2 将数据导入导出Hadoop.2.1 导入导出的关键要素2.2 将数据导入Hadoop .2.2.1 将日志文件导入Hadoop技术点1 使用Flume 将...自动复制文件到HDFS 的机制技术点3 使用Oozie 定期执行数据导入活动...

    common-datax:基于DataX的通用数据同步微服务,一个Restful接口搞定所有通用数据同步

    所以:提供通用数据抽取restful接口HDFS自动创库创表创分区利用freemarker模板自动创建json文件自动python执行job集成Azkaban进行调度管理例如:mysql到hive选择mysql需要同步的表、字段等信息,输入导入到hive的库...

Global site tag (gtag.js) - Google Analytics