`
hmilyzhangl
  • 浏览: 45007 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论

hadoop杂记(一)

阅读更多
namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器 上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟 datanode一样(目录最好分布在不同的磁盘上,一个目录对应一个磁盘),namenode存储目录需要格式化,datanode存储目录不需要格式 化,启动时自动创建
同一个datanode上的每个磁盘上的块不会重复,不同datanode之间的块才可能重复

一些文件的说明:
1、dfs.hosts  记录即将作为datanode加入集群的机器列表
2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表
3、dfs.hosts.exclude mapred.hosts.exclude  分别包含待移除的机器列表
4、master 记录运行辅助namenode的机器列表
5、slave 记录运行datanode和tasktracker的机器列表
6、hadoop-env.sh 记录脚本要用的环境变量,以运行hadoop
7、core-site.xml hadoop core的配置项,例如hdfs和mapreduce常用的i/o设置等
8、hdfs-site.xml hadoop守护进程的配置项,包括namenode、辅助namenode和datanode等
9、mapred-site.xml mapreduce守护进程的配置项,包括jobtracker和tasktracker
10、hadoop-metrics.properties 控制metrics在hadoop上如何发布的属性
11、log4j.properties 系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性

一、hdfs守护进程的关键属性

1、fs.default.name  类型:uri  默认值:file:///  说明:默认文件系统,uri定义主机名称和namenode的rpc服务器工作的端口号,默认是8020,在core-site.xml中配置
2、dfs.name.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/name 说明:namenode存储永久性的元数据的目录列表,namenode在列表上的各个目录中均存放相同的元数据文件
3、dfs.data.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/data 说明:datanode存放数据块的目录列表,各个数据块分别存于某个目录中
4、fs.checkpoint.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/namesecondary 说明:辅助namenode存放检查点的目录列表,在所列的各个目录中分别存放一份检查点文件副本
二、mapreduce守护进程关键属性
1、 mapred.job.tracker 类型:主机名和端口 默认值:local 说明:jobtracker的rpc服务器所在的主机名称和端口号,如果设为默认值local,则运行一个mapreduce作业 时,jobtracker即时以处理时模式运行(换言之,用户无需启动jobtracker;实际上试图在该模式下启动jobtracker会引发错误)
2、mapred.local.dir 类型:逗号分割的目录名称 默认值:${hadoop.tmp.dir}/mapred/local 说明:存储作业中间数据的一个目录列表,作业终止时,数据被清除
3、mapred.system.dir 类型:uri 默认值:${hadoop.tmp.dir}/mapred/system 说明:在作业运行期间存储共享文件的目录,相对于fs.default.name
4、mapred.tasktracker.map.tasks.maximum 类型:int 默认值:2 说明:在任一时刻,运行在tasktracker之上的map任务的最大数
5、mapred.tasktracker.reduce.tasks.maximum 类型:int  默认值:2 说明:在任一时刻,运行在tasktracker之上的reduce任务的最大数
6、mapred.child.java.opts 类型:string 默认值:-xmx200m 说明:jvm选项,用于启动运行map和reduce任务的tasktracker子进程,该属性可以针对每个作业进行设置,例如,可以设置jvm的属性,以支持调试
7、mapred.child.ulimit  限制由tasktracker发起的子进程的最大虚拟内存(单位千字节),该值设置一定要大于6设置项的值
三、rpc服务器属性
1、dfs.datanode.ipc.address 默认值:0.0.0.0:50020 说明:datanode的rpc服务器的地址和端口
2、mapred.job.tracker 默认值:local 说明:被设为主机名称和端口号时,该属性指定jobtracker的rpc服务器地址和端口,常用的端口号时8021
3、 mapred.task.tracker.report.address 默认值:127.0.0.1:0 说明:tasktracker的rpc服务器地址和端口号,tasktracker的子jvm利用它和tasktracker通信,在本例中,可以使用任 一空闲端口,因为服务器仅对会送地址隐藏,如果本机器没有会送地址,则需变更默认设置
datanode也运行tcp/ip服务器以支持块传输,默认由dfs.datanode.address设定,默认值是0.0.0.0:50010
三、http服务器属性
1、mapred.job.tracker.http.address 默认值:0.0.0.0:50030 说明:jobtracker的http服务器地址和端口
2、mapred.task.tracker.http.address 默认值:0.0.0.0:50060 说明:tasktracker的http服务器地址和端口
3、dfs.http.address 默认值:0.0.0.0:50070 说明:namenode的http服务器地址和端口
4、dfs.datanode.http.address 默认值:0.0.0.0:50075 说明:datanode的http服务器地址和端口
5、dfs.secondary.http.address默认值:0.0.0.0:50090 说明:辅助namenode的http服务器地址和端口
可 以选择某一个网络接口作为各个datanode和tasktracker的ip地址(针对http和rpc服务器)。相关属性项包括 dfs.datanode.dns.interface和mapred.tasktracker.dns.interface,默认值都是default
分享到:
评论

相关推荐

    Hadoop运维杂记

    Apache 推了一个Hadoop,这是一个开源的、免费的东东;每个人、每个公司都可以拿来修改,发布。在众多公司中做的比较好(用的也比较广泛)是Cloudera。...它不是一个详细指导安装的文档、是一个杂记。

    Hadoop大数据平台运维杂记.pptx

    Hadoop大数据平台运维杂记.pptx

    大数据时代基于Hadoop的一个数据仓库工具hive

    大数据时代基于Hadoop的一个数据仓库工具hive

    Hadoop下载 hadoop-3.3.3.tar.gz

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    hadoop2.7.3 hadoop.dll

    在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....

    大数据云计算技术 Hadoop运维杂记(共21页).rar

    大数据云计算技术 Hadoop运维杂记(共21页).rar

    hadoop_tutorial hadoop入门经典

    hadoop_tutorial hadoop入门经典 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。...

    hadoop-3.3.4 版本(最新版)

    Hadoop 架构是一个开源的、基于 Java 的编程框架,设计用于跨电脑集群来 处理大数据。Hadoop 是一个能够让用户轻松搭建和使用的分布式计算平台,能 够让用户轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。 ...

    Hadoop权威指南 中文版

    本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i...

    云计算Hadoop:快速部署Hadoop集群

    资源名称:云计算Hadoop:快速部署Hadoop集群内容简介: 近来云计算越来越热门了,云计算已经被看作IT业的... Apache Hadoop 是一个软件框架,它可以分布式 资源太大,传百度网盘了,链接在附件中,有需要的同学自取。

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...

    hadoop打造一个搜索引擎

    hadoop 打造一个搜索引擎,对于学习hadoop有一定的帮助

    hadoop高级应用一

    Hadoop是一个分布式系统基础架构,由Apache基金会开发

    Hadoop.chm HadoopAPI Hadoop英文版最新API

    Hadoop是Apache Lucene的创始人 Doung Cutting 创建的, Hadoop起源于Apache Nutch, 一个开源的网络搜索引擎,也是Apache的Lucene项目的一部分。Hadoop是创始人Doung Cutting的儿子给一头大象起的名字。 Hadoop的子...

    hadoop-3.1.3安装包

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合...

    hadoop2.7.3 Winutils.exe hadoop.dll

    hadoop2.7.3 Winutils.exe hadoop.dll

    hadoop的dll文件 hadoop.zip

    hadoop的dll文件 hadoop.zip

    hadoop3.3.3-winutils

    Hadoop3.x在组成上没有变化Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。 (1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每...

Global site tag (gtag.js) - Google Analytics