hadoop参数设置 - - ITeye博客

`

samwalt

浏览: 280836 次
性别:
来自: 上海

最近访客更多访客>>

yangjianzhouctgu

elenson

rapin

80082828

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

zhengalways： samwalt 写道zhengalways 写道samwalt ...
“程序包com.sun.image.codec.jpeg不存在”问题解决
samwalt： zhengalways 写道samwalt 写道zhengal ...
“程序包com.sun.image.codec.jpeg不存在”问题解决
zhengalways： samwalt 写道zhengalways 写道博主你好，刚用 ...
“程序包com.sun.image.codec.jpeg不存在”问题解决
samwalt： zhengalways 写道博主你好，刚用idea，切换成jr ...
“程序包com.sun.image.codec.jpeg不存在”问题解决
zhengalways：博主你好，刚用idea，切换成jre也不行啊，崩溃
“程序包com.sun.image.codec.jpeg不存在”问题解决

hadoop参数设置

博客分类：

hadoop

阅读更多

hadoop.tmp.dir

指定的目录是本地目录，存储namenode的metadata，hdfs的块数据，还有临时数据，默认值/tmp/hadoop-${user.name}

fs.default.name

设置hadoop默认文件系统，URI的形式，需要指定namenode的主机名和端口

dfs.replication

默认是3

dfs.block.size

默认64M

dfs.data.dir

datanode的本地文件系统目录，存放hdfs块文件。如果是逗号分隔的路径列表，则每个路径下都可以保存数据，但不是像dfs.name.dir那样数据冗余。

dfs.name.dir

namenode的本地文件系统目录，存放hdfs的metadata(fsimage)。如果是逗号分隔的路径列表，那么fsimage信息在多个路径中做冗余保存

dfs.df.interval

磁盘使用统计刷新时间间隔，单位毫秒

dfs.client.block.write.retries

写数据到datanode的重试次数

dfs.heartbeat.interval

datanode心跳时间间隔，单位秒

mapred.job.tracker

jobtracker的ip地址、端口

mapred.system.dir

hdfs目录，存储共享的mapreduce系统文件

mapred.local.dir

map task中间结果存储路径，可配置多块磁盘缓解写压力

mapred.tasktracker.map.tasks.maximum

tasktracker上同时运行的map的最大数量

mapred.tasktracker.reduce.tasks.maximum

tasktracker上同时运行的reduce的最大数量

hadoop的io缓冲区大小默认4k，这个设置过于保守，通常设置成128k。
在core-site.xml文件中设置：

<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>

缓存map中间结果的缓冲区大小，默认100。设置较大的值，可以减少spill的次数，即减少磁盘操作次数。如果map的瓶颈在磁盘操作，可以提高map的性能。

<property>
<name>io.sort.mb</name>
<value>200</value>
</property>

分享到：

mysql导出导入表结构和表数据 | hadoop性能调优

2011-08-29 18:22
浏览 2444
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop参数调优: Hadoop参数调优，各种参数修改优化，还是需要大量实验才能得到最合适的设置

徐老师大数据 Hadoop架构完全分析课程 Hadoop入门学习视频教程: 028.Hadoop架构分析之启动脚本分析（mapred.cmd和虚拟机参数设置）.mp4 029.Hadoop架构分析之启动脚本分析（start-yarn.cmd命令）.mp4 030.Hadoop架构分析之启动脚本分析（yarn.cmd与yarn-evn.cmd命令）.mp4

Hadoop实战中文版: 7.2 探查任务特定信息　7.3 划分为多个输出文件　7.4 以数据库作为输入输出　7.5 保持输出的顺序　7.6 小结　第8章管理Hadoop　8.1 为实际应用设置特定参数值　8.2 系统体检　8.3 权限设置　8.4 配额管理　8.5 启用...

Hadoop权威指南第二版(中文版): 　环境设置　Hadoop守护进程的关键属性　Hadoop守护进程的地址和端口　Hadoop的其他属性　创建用户帐号　安全性　Kerberos和Hadoop 　委托令牌　其他安全性改进　利用基准测试程序测试Hadoop集群　Hadoop...

hadoop在xp下的环境配置和编译: hadoop在xp下的编译环境，环境变量配置和编译参数设置，修改本地库函数

hadoop倒排索引: hadoop倒排索引，注意参数的设置，可以在eclipse中直接编辑

Hadoop权威指南（中文版）2015上传.rar: 环境设置 Hadoop守护进程的关键属性 Hadoop守护进程的地址和端口 Hadoop的其他属性创建用户帐号安全性 Kerberos和Hadoop 委托令牌其他安全性改进利用基准测试程序测试Hadoop集群 Hadoop基准测试程序用户的作业 ...

hadoop平台的搭建过程简介: 详细介绍了hadoop平台的搭建，包括虚拟机的配置，hadoop各种参数的设置，以及Eclipse平台的搭建，并检验整个集群是否能正常运行。

Hadoop实战中文版.PDF: 1387.4　以数据库作为输入输出　1437.5　保持输出的顺序　1457.6　小结　146第8章　管理Hadoop　1478.1　为实际应用设置特定参数值　1478.2　系统体检　1498.3　权限设置　1518.4　配额管理　1518.5　启用回收站　...

hadoop2.2.0部署: 1.2.2 设置VIM 命令 3 1.2.3 配置仅主机连网 4 1.2.4 配置网络出现的问题 5 1.2.5 设置桥接上网 6 1.2.6 设置nat上网 12 2 安装基本工具 15 2.1 SSH免登陆配置 15 2.2 SUDO配置 15 3 单机安装Hadoop 17 3.1 hdfs和...

Hadoop平台搭建 1.搭建步骤文档 2.搭建时要用到的组件安装包: 配置Hadoop环境变量：设置Hadoop的相关环境变量，以便系统能够找到Hadoop的配置文件和二进制文件。配置Hadoop集群：根据实际需求，配置Hadoop集群的节点、网络拓扑结构等参数。启动Hadoop集群：启动Hadoop集群的...

大数据云计算技术系列 hadoop搭建与eclipse开发环境设置-已验证通过（共13页）.pdf: 1. Windows下eclipse开发环境配置 1.1 安装开发hadoop插件 ...1.2 设置连接参数打开windows->show view->other-> map/reduce Locations视图，在点击大象后弹出的对话框（General tab）进行参数的添加：

Hadoop集群搭建: Hadoop集群搭建时的环境配置与参数设置

Hadoop实战: 1357.2 探查任务特定信息 1377.3 划分为多个输出文件 1387.4 以数据库作为输入输出 1437.5 保持输出的顺序 1457.6 小结 146第8章管理Hadoop 1478.1 为实际应用设置特定参数值 1478.2 系统体检 1498.3 权限设置 1518...

大数据云计算技术在云中构建可扩展的分布式应用程序-精通Hadoop 共68页.docx: 2.2.2 设置输出参数 45 2.2.3 配置Reduce阶段 50 2.3 执行作业 52 2.4 创建客户化的MAPPER和REDUCER 54 2.4.1 设置客户化的Mapper 54 2.4.2 作业完成 60 2.4.3 创建客户化的Reducer 62 2.4.4 为什么Mapper和Reducer...

Hadoop实战（陆嘉恒）译: 细则手册7.1 向任务传递作业定制的参数7.2 探查任务特定信息7.3 划分为多个输出文件7.4 以数据库作为输入输出7.5 保持输出的顺序7.6 小结第8 章管理Hadoop8.1 为实际应用设置特定参数值8.2 系统体检8.3 权限设置8.4...

基于cloudera搭建hadoop集群: 11. 设置hadoop存储目录 11 12. 配置cm源文件 11 五. 安装 12 1. 安装cm 12 2. 安装cdh 22 六. 卸载 33 七. 参数调整 33 1． Mapreduce 33 2． Hdfs 34 3． Hbase 34 4． hive 35 5． Oozie 35 八. 常用命令 37 1. ...

JAVA使用Apache Hadoop实现大规模数据处理.txt: 最后，在`main`方法中，我们创建了一个Hadoop作业对象，并设置了相关的参数，包括输入输出路径、Mapper、Combiner和Reducer类等。通过运行这个程序，我们可以将大量的文本数据切分成单词并进行计数，从而实现了...

log-analysis:hadoop日志分析工具: 该工具借助纱线的日志聚合功能来分析日志文件，即通过HDFS中的以下参数设置的目录中的所有日志文件： mapreduce.jobhistory.done-dir yarn.node.manager.remote-app-log-dir 当将日志信息，持久性数据分析到数据库...

hive参数配置说明大全: hive参数配置说明大全，详细说个各个参数的作用用法

Global site tag (gtag.js) - Google Analytics