`
samwalt
  • 浏览: 280836 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop参数设置

 
阅读更多
hadoop.tmp.dir

指定的目录是本地目录,存储namenode的metadata,hdfs的块数据,还有临时数据,默认值/tmp/hadoop-${user.name}
fs.default.name

设置hadoop默认文件系统,URI的形式,需要指定namenode的主机名和端口
dfs.replication

默认是3
dfs.block.size

默认64M
dfs.data.dir

datanode的本地文件系统目录,存放hdfs块文件。如果是逗号分隔的路径列表,则每个路径下都可以保存数据,但不是像dfs.name.dir那样数据冗余。
dfs.name.dir

namenode的本地文件系统目录,存放hdfs的metadata(fsimage)。如果是逗号分隔的路径列表,那么fsimage信息在多个路径中做冗余保存
dfs.df.interval

磁盘使用统计刷新时间间隔,单位毫秒
dfs.client.block.write.retries

写数据到datanode的重试次数
dfs.heartbeat.interval

datanode心跳时间间隔,单位秒
mapred.job.tracker

jobtracker的ip地址、端口
mapred.system.dir

hdfs目录,存储共享的mapreduce系统文件

mapred.local.dir

map task中间结果存储路径,可配置多块磁盘缓解写压力

mapred.tasktracker.map.tasks.maximum

tasktracker上同时运行的map的最大数量

mapred.tasktracker.reduce.tasks.maximum

tasktracker上同时运行的reduce的最大数量


hadoop的io缓冲区大小默认4k,这个设置过于保守,通常设置成128k。
在core-site.xml文件中设置:
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>



缓存map中间结果的缓冲区大小,默认100。设置较大的值,可以减少spill的次数,即减少磁盘操作次数。如果map的瓶颈在磁盘操作,可以提高map的性能。
<property>
<name>io.sort.mb</name>
<value>200</value>
</property>

分享到:
评论

相关推荐

    Hadoop参数调优

    Hadoop参数调优,各种参数修改优化,还是需要大量实验才能得到最合适的设置

    徐老师大数据 Hadoop架构完全分析课程 Hadoop入门学习视频教程

    028.Hadoop架构分析之启动脚本分析(mapred.cmd和虚拟机参数设置).mp4 029.Hadoop架构分析之启动脚本分析(start-yarn.cmd命令).mp4 030.Hadoop架构分析之启动脚本分析(yarn.cmd与yarn-evn.cmd命令).mp4

    Hadoop实战中文版

    7.2 探查任务特定信息 7.3 划分为多个输出文件 7.4 以数据库作为输入输出 7.5 保持输出的顺序 7.6 小结 第8章 管理Hadoop 8.1 为实际应用设置特定参数值 8.2 系统体检 8.3 权限设置 8.4 配额管理 8.5 启用...

    Hadoop权威指南 第二版(中文版)

     环境设置  Hadoop守护进程的关键属性  Hadoop守护进程的地址和端口  Hadoop的其他属性  创建用户帐号  安全性  Kerberos和Hadoop  委托令牌  其他安全性改进  利用基准测试程序测试Hadoop集群  Hadoop...

    hadoop在xp下的环境配置和编译

    hadoop在xp下的编译环境,环境变量配置和编译参数设置,修改本地库函数

    hadoop倒排索引

    hadoop倒排索引,注意参数的设置,可以在eclipse中直接编辑

    Hadoop权威指南(中文版)2015上传.rar

    环境设置 Hadoop守护进程的关键属性 Hadoop守护进程的地址和端口 Hadoop的其他属性 创建用户帐号 安全性 Kerberos和Hadoop 委托令牌 其他安全性改进 利用基准测试程序测试Hadoop集群 Hadoop基准测试程序 用户的作业 ...

    hadoop平台的搭建过程简介

    详细介绍了hadoop平台的搭建,包括虚拟机的配置,hadoop各种参数的设置,以及Eclipse平台的搭建,并检验整个集群是否能正常运行。

    Hadoop实战中文版.PDF

    1387.4 以数据库作为输入输出 1437.5 保持输出的顺序 1457.6 小结 146第8章 管理Hadoop 1478.1 为实际应用设置特定参数值 1478.2 系统体检 1498.3 权限设置 1518.4 配额管理 1518.5 启用回收站 ...

    hadoop2.2.0部署

    1.2.2 设置VIM 命令 3 1.2.3 配置仅主机连网 4 1.2.4 配置网络出现的问题 5 1.2.5 设置桥接上网 6 1.2.6 设置nat上网 12 2 安装基本工具 15 2.1 SSH免登陆配置 15 2.2 SUDO配置 15 3 单机安装Hadoop 17 3.1 hdfs和...

    Hadoop平台搭建 1.搭建 步骤文档 2.搭建时要用到的组件安装包

    配置Hadoop环境变量:设置Hadoop的相关环境变量,以便系统能够找到Hadoop的配置文件和二进制文件。 配置Hadoop集群:根据实际需求,配置Hadoop集群的节点、网络拓扑结构等参数。 启动Hadoop集群:启动Hadoop集群的...

    大数据云计算技术系列 hadoop搭建与eclipse开发环境设置-已验证通过(共13页).pdf

    1. Windows下eclipse开发环境配置 1.1 安装开发hadoop插件 ...1.2 设置连接参数 打开windows-&gt;show view-&gt;other-&gt; map/reduce Locations视图,在点击大象后弹出的对话框(General tab)进行参数的添加:

    Hadoop集群搭建

    Hadoop集群搭建时的环境配置与参数设置

    Hadoop实战

    1357.2 探查任务特定信息 1377.3 划分为多个输出文件 1387.4 以数据库作为输入输出 1437.5 保持输出的顺序 1457.6 小结 146第8章 管理Hadoop 1478.1 为实际应用设置特定参数值 1478.2 系统体检 1498.3 权限设置 1518...

    大数据云计算技术 在云中构建可扩展的分布式应用程序-精通Hadoop 共68页.docx

    2.2.2 设置输出参数 45 2.2.3 配置Reduce阶段 50 2.3 执行作业 52 2.4 创建客户化的MAPPER和REDUCER 54 2.4.1 设置客户化的Mapper 54 2.4.2 作业完成 60 2.4.3 创建客户化的Reducer 62 2.4.4 为什么Mapper和Reducer...

    Hadoop实战(陆嘉恒)译

    细则手册7.1 向任务传递作业定制的参数7.2 探查任务特定信息7.3 划分为多个输出文件7.4 以数据库作为输入输出7.5 保持输出的顺序7.6 小结第8 章 管理Hadoop8.1 为实际应用设置特定参数值8.2 系统体检8.3 权限设置8.4...

    基于cloudera搭建hadoop集群

    11. 设置hadoop存储目录 11 12. 配置cm源文件 11 五. 安装 12 1. 安装cm 12 2. 安装cdh 22 六. 卸载 33 七. 参数调整 33 1. Mapreduce 33 2. Hdfs 34 3. Hbase 34 4. hive 35 5. Oozie 35 八. 常用命令 37 1. ...

    JAVA使用Apache Hadoop实现大规模数据处理.txt

    最后,在`main`方法中,我们创建了一个Hadoop作业对象,并设置了相关的参数,包括输入输出路径、Mapper、Combiner和Reducer类等。通过运行这个程序,我们可以将大量的文本数据切分成单词并进行计数,从而实现了...

    log-analysis:hadoop日志分析工具

    该工具借助纱线的日志聚合功能来分析日志文件,即通过HDFS中的以下参数设置的目录中的所有日志文件: mapreduce.jobhistory.done-dir yarn.node.manager.remote-app-log-dir 当将日志信息,持久性数据分析到数据库...

    hive参数配置说明大全

    hive参数配置说明大全,详细说个各个参数的作用用法

Global site tag (gtag.js) - Google Analytics