`
zcwfeng
  • 浏览: 98205 次
  • 性别: Icon_minigender_1
  • 来自: 吉林
社区版块
存档分类
最新评论

Hadoop平台学习过程的一些总结

阅读更多
1.MapR有三种版本,M3(免费版)、M5(含有支持的版本,并启用了所有HA特性)和M7(最近和重写的HBase一起发布),MapR采取了一种与其他供应商不同的方法,它肯定会有属于自己的追随者。

2.hadoop 执行 mapreduce的有几种方式
一、原生态的方式:java 源码编译打包成jar包后,由 hadoop 脚本调度执行
二、基于 MR 的数据流 Like SQL 脚本开发语言:pig
三、构建数据仓库的类 SQL 开发语言:hive
四、跨平台的脚本语言:python

3.hadoop的调优
在job中中间的结果使用压缩,输出数据量大的话也要采用压缩,因为备份有副本所以压缩可以加快磁盘的IO,对机器多的效果应该更明显,可以大幅度提高job的效率。
尽量减少task的数量,减少每个task耗费的时间。当一个job数据大于1TB 要增加 块的大小 (256 512 大概)。//hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata
利用Combiner减少磁盘和网络传输到reduce的数据量
使用自己的Writable类尽量重用,不是多次的创建

任务调度的时候会尽量将任务分配给输入数据块InputSplit所在的机器,减少IO网络的消耗。
提交MapReduce任务之前,可以先对数据进行一次预处理将小数据合并成适当的大数据。如果Map的任务时间很短可以考虑调节Block块的大小来调整Map的运行时间。
控制MapReduce任务的数量,调节Map/Reduce的任务槽。Map可以根据时间来调节,reduce调整reduce和任务槽的比例。
利用Combine函数调整Map函数产生的很多重复的中间数据,利用本地的合并,在传递给Reduce,可以减少数据的网络传输
可以对Map的输出和最终结果进行压缩
自定义comparator,可以实现一些算法如K-means。
分享到:
评论

相关推荐

    Hadoop学习总结.doc

    Hadoop学习总结,内容包括: 1. HDFS简洁 2. HDFS读写过程解析 3. MapReduce入门 4. MapReduce过程解析 5. Hadoop运行痕迹 6. MapReduce源码分析总结

    Hadoop学习总结

    hadoop学习总结,包含HDFS简介,HDFS读写过程解析、Map-Reduce入门、Map-Reduce的过程解析、Hadoop的运行痕迹

    Hadoop学习总结之四:Map-Reduce过程解析

    Hadoop学习总结之四:Map-Reduce的过程解析

    Hadoop学习总结之二:HDFS读写过程解析

    Hadoop学习总结之二:HDFS读写过程解析

    hadoop和hive调优个人总结

    个人在学习和测试hive过程中总结的几点调优新的!

    hadoop的优化.docx

    hadoop学习过程中的调优总结,Mapreduce/hive相关的调优,Linux层面的一些调优,Mr/hive 的调优

    Hadoop知识总结

    在学习hadoop的过程中对Hadoop的简单总结,对刚接触Hadoop比较有帮助

    Hadoop学习总结之二:HDFS读写过程解析.doc

    主要是hdfs读写的代码分析。可依据该文档进行深入代码。

    网络前沿技术 Hadoop

    Step2: 学习HDFS基本命令 30 Step3: HDFS实践 42 2.4【实验结果】 45 2.5【实验总结】 46 实验3:VARN技术 48 3.1【实验目的】 48 3.2【实验环境】 48 3.3【实验过程】 48 Step1:基础配置 48 Step2: Distribu

    实验二:熟悉常用的HDFS操作

    A.2实验二:熟悉常用的HDFS操作 本实验对应第4章的内容。 A.2.1 实验目的 ...A.2.2 实验平台 (1)操作系统:Linux(建议Ubuntu 16.04)。(2) Hadoop版本:2.7.1。 (3)JDK版本:1.7或以上版本。(4) Java IDE:Eclipse。

    大数据集群搭建基本环境.docx

    根据自己日常学习大数据hadoop集群搭建总结的基本环境的安装过程总结的较为详细操作步骤和相关步骤说明,可供初学者下载参考。

    Spark机器学习视频第10课.最终获取用户的收藏以及订单转换率

    课程目录: 课时1:Spark介绍 课时2:Spark2集群安装 课时3:Spark RDD操作 课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 ...课时21:Spark整个学习过程及其总结

    大数据技术实践——Spark词频统计

    本次作业要完成在Hadoop平台搭建完成的基础上,利用Spark组件完成文本词频统计的任务,目标是学习Scala语言,理解Spark编程思想,基于Spark 思想,使用IDEA编写SparkWordCount程序,并能够在spark-shell中执行代码和...

    2018--Hadoop-:存放代码资源,交流大数据开发技术。共同成长,一同进步-源码资源

    学习过程中遇到的问题。(附问题描述和截图或查找的相关博客)其他人可以评论相关问题,给予解答。 学习过程中遇到的好的资源,可以放到这里。某些好的博客,算法讲解教程,视频资源等(附链接+评论,为什么推荐这个...

    大数据实验二-HDFS编程实践

    一.实验内容 HDFS编程实践: 1)使用HDFS文件操作的常用Shell命令;...此外,我还学习了如何使用`hdfs dfs -copyFromLocal`和`hdfs dfs -copyToLocal`命令在HDFS之间复制文件。 (3)其次,我利用Hadoop提供的Java AP

    Hive学习笔记

    对Hive的学习过程总结,包括Hive的基本使用,Hive的调优,UDF函数的使用说明!

    java大数据面试基础v3.docx

    本文总结java 、大数据有关基础技术知识,可用于面试前的查漏补缺;包含java集合、多线程、异常;包含hadoop、hive、storm、spark、zookeeper、kafka、flume等技术;包括mysql数据库的查询及优化知识点;包括vue、...

    R的极客理想:工具篇,完整扫描版

    书中内容来自作者在R语言的实际使用过程中的经验总结,其中涉及计算机、互联网、数据库、大数据、统计、金融等领域,详细总结了R语言在实际使用时与Java、MySQL、Redis、MongoDB、Cassandra、Hadoop、Hive、HBase等...

    HBase企业应用开发实战

    , 【名家推荐】, 本书作者在Hadoop开发和运维领域工作近4年,积累了丰富的经验,同时也对Hadoop技术人员在学习过程中可能会遇到的问题有一定的了解,在此基础上写了这本书。从如何用好HBase出发,首先介绍设计原理和...

Global site tag (gtag.js) - Google Analytics