`

HADOOP程序日志

 
阅读更多

*.log日志文件和*.out日志文件

进入Hadoop_LOG目录,可以看到如下文件:

image 

在启动Hadoop集群时,由hadoop-daemon.sh脚本指定一些列环境变量,然后log4j.properties文件读取相应的环境变量产生对应的*.log日志文件。这个日志文件输出类型为org.apache.log4j.DailyRollingFileAppender,它会自动按天更新。

*.out文件则是启动某个程序的标准输出重定向。

如:

hadoop-admin-datanode-horde20.log是在horde20这台机器上启动datanode进程的日志输出,由log4j实现。

hadoop-admin-datanode-horde20.out则是在horde20这台机器上启动datanode时的标准输出。

这些日志仅仅包含在horde20这台机器上启动datanode进程的日志,没有其他的信息。

 

userlogs目录下的日志文件

进入userlogs目录,可以看到:

image

这里的每一个目录代表每一个task的输出日志。

进入其中一个目录可以看到:

image

这里的stderr和stdout记录了我们的task(map or reduce)的在这台机器上运行的过程中所产生的标准错误输出和标准输出。这些信息集群中的每一个机器上都会出现,如果数据量足够多的话:)

syslog则记录了在我们的task中,通过log4j接口记录的日志信息。

每一个task都会通过TaskRunner.run()来启动,它会为每一个子java程序指定标准错误输出和标准输出到前面提到的文件中,同时设置相应的参数,其中包括”-Dhadoop.root.logger=INFO,TLA”,这个TLA的定义可以在log4j.properties文件中找到,具体实现是org.apache.hadoop.mapred.TaskLogAppender。这个参数指定了在我们的task中,通过log4j接口记录的日志信息都记录到syslog中。

history目录下的日志文件

进入jobtracker机器的history目录,我们可以看到:

image 

horde20_1250841267760_job_200908211554_0001_conf.xml记录了我们运行这个job时候的配置文件信息。

horde20_1250841267760_job_200908211554_0001_admin_wordcount记录了我们运行这个job的情况。

他们是由JobHistory产生的,并且只在jobtracker机器上产生。

EventCounter

在Hadoop的默认配置log4j.properties中,所有通过log4j接口记录的日志信息还会记录到一个叫EventCounter的Appender中,它的实现是org.apache.hadoop.metrics.jvm.EventCounter,具体的作用是统计Hadoop中使用log4j记录INFO,WARN,ERROR,FATAL信息的次数。

 

如果希望完全了解Hadoop的运行状况信息,还需要参考counter和metric。

 

参考:

逖靖寒的世界 http://gpcuster.cnblogs.com

分享到:
评论

相关推荐

    hadoop日志处理程序

    利用hadoop集群处理分析日志文件

    基于Hadoop的Web日志分析项目源码(日志的清洗、统计分析、统计结果的导出、指标数据的Web展示)+项目说明.zip

    基于Hadoop的Web日志分析项目源码(日志的清洗、统计分析、统计结果的导出、指标数据的Web展示)+项目说明.zip 包含如下 【主要分析统计的指标数据】 浏览量PV 访客数UV IP数 跳出率 【系统架构设计】 【数据库表结构...

    基于Hadoop的网站日志分析程序.zip

    人工智能-hadoop

    基于Hadoop的网站日志分析程序+源代码+文档说明

    基于Hadoop的网站日志分析程序+源代码+文档说明 -------- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用...

    apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现

    apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现

    大数据课程-Hadoop集群程序设计与开发-8.Flume日志采集系统_lk_edit.pptx

    大数据课程——Hadoop集群程序设计与开发,教师版,提供教学大纲、教案、教学设计、实训文档等,课程内容包含教学准备环境、软件安装、作业、教学文档、演示视频,花费巨额时间亲自制作,下载后可私信提供上述所有...

    Hadoop从入门到上手企业开发

    017 查看Hadoop 日志以及日志的格式和命名组成 018 Hadoop 守护进程服务三种启动停止方式 019 测试环境(HDFS Shell基本命令和运行WordCount程序) 020 结合WordCount实例讲解Hadoop的数据存储和数据计算 021 Hadoop ...

    大数据课程-Hadoop集群程序设计与开发-11.综合项目-网站流量日志数据分析系统_lk_edit.pptx

    大数据课程——Hadoop集群程序设计与开发,教师版,提供教学大纲、教案、教学设计、实训文档等,课程内容包含教学准备环境、软件安装、作业、教学文档、演示视频,花费巨额时间亲自制作,下载后可私信提供上述所有...

    1. 搜狗日志查询分析; 2. 运营商关于用户基站停留数据统计; 3. 根据气象数据中心的数据进行温度统计; Hadoop

    选题:搜狗日志查询分析 (MapReduce+Hive综合实验) 前提条件: 安装好hadoop2.8.0 安装好HQL 安装好Hive 安装好eclipse 选题要求: 解压数据源,并上传到hdfs,保存的目录以个人学号区分,176为我的学号 创建hive...

    深入理解hadoop

    第8章~第14章介绍Hadoop生态系统,包括支持MapReduce程序的单元测试和集成测试框架、Hadoop系统的监控和日志系统、Hive框架、Pig和Crunch框架、HCatalog框架、Hadoop日志流处理、HBase等。第15章~第17章介绍了数据...

    hadoop环境搭建.jpg

    它提供高吞吐量来访问应用程序的数据,并适合处理超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据 Hadoop的应用场景非常广泛,包括但不限于数据存储和处理、日志分析、搜索引擎等...

    Hadoop基础培训教程.pdf

    (应用程序/软件工程)、技 术运营和质量保障(QA)部 门之间的沟通、协作与整合。 它的出现是由于软件行业日 益清晰地认识到:为了按时 交付软件产品和服务,开发 和运营工作必须紧密合作。 摘自:...

    Hadoop权威指南 第二版(中文版)

    Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何构建Hadoop集群,如何管理Hadoop;Pig简介;Hbase简介;Hive简介;ZooKeeper简介;开源工具Sqoop,最后还...

    log-analysis:使用 Spark 进行 Hadoop 日志分析

    这个用 Scala、Spark 和 MLLIB 编写的应用程序的总体目标是根据日志数据预测应用程序故障。 我的解决方案由两个模块组成:解析器LogParser和日志分析器LogAnalysis 。 我解析了 5 种类型的日志,这些日志将解释用于...

    Hadoop实战中文版.PDF

    ”大体来说,hadoop应用对系统的要求侧重计算、存储与网络性能的均衡,这一点则正好与英特尔X86平台不谋而合。英特尔至强7400/7500系列处理器已然为百度Hadoop集群奠定了坚实的硬件平台,今年英特尔发布的至强E5平台...

    Hadoop权威指南(中文版)2015上传.rar

    Hadoop和Cascading在ShareThis的应用 总结 在Apache Hadoop上的TB字节数量级排序 使用Pig和Wukong来探索10亿数量级边的 网络图 测量社区 每个人都在和我说话:Twitter回复关系图 (度)degree 对称链接 社区提取 ...

    论文研究-基于Hive的海量搜索日志分析系统研究.pdf

    针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析...

    BigDataDemos:Hadoop等演示程序

    Hadoop等的演示程序 戴夫·杰菲(Dave Jaffe) @ davejaffe7 GeoWeb Apache日志生成器和分析工具 演示程序生成Apache Web日志并使用MapReduce,Hive和Pig对其进行分析 参见白皮书“使用Hadoop进行数据分析的三种方法...

    基于Hadoop 平台的数据分析方案的设计

    其中Hadoop 是应用较多的分布式存储和计算框架之一。 本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分 析,给出相应Map/Reduce 程序的设计思路和实例,并提出Map/Reduce 分布式...

    大数据与Hadoop.doc

    Hadoop Distributed File System(HDFS):Hadoop分布式文件系统,提供高吞吐量应用程序数据访问,并具有高 容错性。对外部客户机而言,HDFS就像一个传统的分级文件系统,可以进行增删改查或 重命名等常规文件操作...

Global site tag (gtag.js) - Google Analytics