`

hadoop配置文件笔记

阅读更多

 

mapred-site.xml

 

 

name value Description
mapred.tasktracker.tasks.maximum 2 tasktraceker给每个job同时运行的槽数,经常与mapred.tasktracker.map.tasks.maximum搞混。用于balance。x=0.95*node*y
hadoop.job.history.location   job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。
hadoop.job.history.user.location   用户历史文件存放位置
io.sort.factor 30 这里处理流合并时的文件排序数,我理解为排序时打开的文件数
io.sort.mb 600 排序所使用的内存数量,单位兆,默认1,我记得是不能超过mapred.child.java.opt设置,否则会OOM
mapred.job.tracker hadoopmaster:9001 连接jobtrack服务器的配置项,默认不写是local,map数1,reduce数1
mapred.job.tracker.http.address 0.0.0.0:50030 jobtracker的tracker页面服务监听地址
mapred.job.tracker.handler.count 15 jobtracker服务的线程数
mapred.task.tracker.report.address 127.0.0.1:0 tasktracker监听的服务器,无需配置,且官方不建议自行修改
mapred.local.dir /data1/hdfs/mapred/local,
/data2/hdfs/mapred/local,
...
mapred做本地计算所使用的文件夹,可以配置多块硬盘,逗号分隔
mapred.system.dir /data1/hdfs/mapred/system,
/data2/hdfs/mapred/system,
...
mapred存放控制文件所使用的文件夹,可配置多块硬盘,逗号分隔。
mapred.temp.dir /data1/hdfs/mapred/temp,
/data2/hdfs/mapred/temp,
...
mapred共享的临时文件夹路径,解释同上。
mapred.local.dir.minspacestart 1073741824 本地运算文件夹剩余空间低于该值则不在本地做计算。字节配置,默认0
mapred.local.dir.minspacekill 1073741824 本地计算文件夹剩余空间低于该值则不再申请新的任务,字节数,默认0
mapred.tasktracker.expiry.interval 60000 TT在这个时间内没有发送心跳,则认为TT已经挂了。单位毫秒
mapred.map.tasks 2 默认每个job所使用的map数,意思是假设设置dfs块大小为64M,需要排序一个60M的文件,也会开启2个map线程,当jobtracker设置为本地是不起作用。
mapred.reduce.tasks 1 解释同上
mapred.jobtracker.restart.recover true | false 重启时开启任务恢复,默认false
mapred.jobtracker.taskScheduler org.apache.hadoop.mapred.
CapacityTaskScheduler

org.apache.hadoop.mapred.
JobQueueTaskScheduler

org.apache.hadoop.mapred.
FairScheduler
重要的东西,开启任务管理器,不设置的话,hadoop默认是FIFO调度器,其他可以使用公平和计算能力调度器
mapred.reduce.parallel.copies 10 reduce在shuffle阶段使用的并行复制数,默认5
mapred.child.java.opts

-Xmx2048m

-Djava.library.path=
/opt/hadoopgpl/native/
Linux-amd64-64

每个TT子进程所使用的虚拟机内存大小
tasktracker.http.threads 50 TT用来跟踪task任务的http server的线程数
mapred.task.tracker.http.address 0.0.0.0:50060 TT默认监听的httpIP和端口,默认可以不写。端口写0则随机使用。
mapred.output.compress true | false 任务结果采用压缩输出,默认false,建议false
mapred.output.compression.codec org.apache.hadoop.io.
compress.DefaultCodec
输出结果所使用的编解码器,也可以用gz或者bzip2或者lzo或者snappy等
mapred.compress.map.output true | false map输出结果在进行网络交换前是否以压缩格式输出,默认false,建议true,可以减小带宽占用,代价是会慢一些。
mapred.map.output.compression.codec com.hadoop.compression.
lzo.LzoCodec
map阶段压缩输出所使用的编解码器
map.sort.class org.apache.hadoop.util.
QuickSort
map输出排序所使用的算法,默认快排。
mapred.hosts conf/mhost.allow 允许连接JT的TT服务器列表,空值全部允许
mapred.hosts.exclude conf/mhost.deny 禁止连接JT的TT列表,节点摘除是很有作用。
mapred.queue.names ETL,rush,default 配合调度器使用的队列名列表,逗号分隔
mapred.tasktracker.map.
tasks.maximum
12 每服务器允许启动的最大map槽位数。
mapred.tasktracker.reduce.
tasks.maximum
6 每服务器允许启动的最大reduce槽位数
分享到:
评论

相关推荐

    Hadoop HA搭建笔记和配置文件

    Hadoop HA模式搭建的图文笔记、tar包工具包和配置文件等

    【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)

    【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包...

    hadoop.tar环境配置文件

    Hadoop笔记附属文件 hadoop2.6.4配置文件修改压缩包, 使用方法 备份原文件,上传该文件,解压,赋予权限 使用方法简单便捷

    Hadoop与HBase自学笔记

    Hadoop与HBase自学笔记 1、 安装jdk 2、 安装Cygwin以及相关服务 2.1 安装Cygwin 2.2 配置环境变量 2.3 安装sshd服务 2.4 启动sshd服务 2.5 配置ssh登录 3、安装hadoop 3.1 修改hadoop-env.sh 3.2 修改...

    Hadoop大数据开发教程笔记软件.zip

    hadoop教程附属文件,hadoop笔记教程配置软件包(基于hadoop打大数据开发基础)

    Hadoop学习笔记之jdk的安装

    1.首先必须在将虚拟机上的Linux系统配置好。 2.删除自带的jdk。 3.就可以开是学习Hadoop了接下来对照文件操作。 声明本人是第一次发帖子,如有错误请大家多多指正。请大家多多关注。

    Hadoop学习笔记(二)Hadoop 分布式文件系统 HDFS:1.HDFS基础

    maven的安装、路径配置、修改库文件路径和eclipse中的配置,解决Eclipse使用Maven下载慢的问题 1.3、创建一个maven工程HDFS 1.4、 导入相应的依赖坐标加日志添加 junit junit RELEASE org.apache.logging....

    Hadoop环境搭建笔记

    声明:个人笔记,我自己看的不想看勿喷 配置jdk 在根目录opt文件夹下创建两个文件夹:module和software(命令:mkdir),software用来存放tar包,module用来存放解压后的tar包。 修改文件夹用户和用户组,当前是root...

    hadoopcluster-ansible:它包含Ansible Playbook和角色,可通过AWS部署Hadoop多节点集群

    配置Hadoop名称节点 Hadoop数据节点 配置Hadoop数据节点 先决条件 Ansible应该已安装和配置 应该安装和配置AWS CLI 角色的其他要求包含在特定角色的自述文件中 如何开始 克隆或下载存储库 根据需要更改变量的值 ...

    Hadoop学习笔记—1.基本介绍与环境配置

    说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的GFS(Google FileSystem),从此文件系统进入分布式时代...

    hive实战笔记. 新零售的从零到应用. 包含所有思路与代码.zip

    6.修改/usr/local/hive/conf下的配置文件,该目录下的文件有: 二.在Ubuntu中安装并配置mysql 1.我们采用MySQL数据库保存Hive的元数据,而不是采用Hive自带的derby来存储元数据,因此需要在Ubuntu里安装MySQL 使用...

    accumulo-formula:设置Apache Accumulo-基于Apache Hadoop和Zookeeper的安全键值存储

    哪些服务最终会在给定的主机上运行,​​将取决于配置目录中类似hadoop的文本列表文件,进而取决于通过盐粒定义的角色: accumulo_master将运行master,monitor和gc(如果还存在开发角色,则运行示踪剂) accumulo_...

    hadoop-cluster

    剧本Provision.yaml包含角色“ provision”,该角色将在AWS上配置主实例和从属实例,还将主节点和从属节点的配置文件复制到各自的角色中play configuration.yaml包含四个角色copy,install,masterconfig,...

    flink-help.chm

    flink-helper chm格式文件,包括flink集群部署,flink学习笔记,hadoop2.7.7配置,flink生产主要配置,对于flink初学者和集群搭建帮助会比较大。内容是chm格式,便于阅读携带

    DockerSpark245:带有示例培训Jupyter笔记本的Docker容器中的Spark集群

    Spark和Hadoop配置和发布信息 Spark版本2.4.5用于确保与PySpark和Kafka的兼容性,并启用与PySpark兼容的Spark流。 Hadoop版本是2.7 这些是在build.sh脚本的开头设置的,并作为环境变量传递到每个Docker构建阶段。 ...

    小文件存储SeaweedFS技术指南

    5. SeaweedFS的配置 6. SeaweedFS S3 API 7. SeaweedFS 与大数据Hadoop,Spark,Hbase,Presto的集成 8. SeaweedFS的复制和备份 9. 安全 10. 高级使用 11. 维护 该文档为英文版, 如需中文版的笔记欢迎与博主联系。

    Docker应用程序启动器

    : 依存关系您需要在计算机上安装以下应用程序才能运行此Docker应用程序: Docker桌面您将需要使用它来访问一些无头浏览器应用程序的密码,这些应用程序将其密码存储在特定容器的配置文件中。 蚀如果您使用的是Linux...

Global site tag (gtag.js) - Google Analytics