pig
分析带逻辑的文本文件, 类似于sql
不用MR直接去分割字符串什么的。
A = LOAD 'student' USING PigStorage() AS (name:chararray, age:int, gpa:float); -- loading data
B = FOREACH A GENERATE name; -- transforming data
DUMP B; -- retrieving results
序列化工具 avro
序列化和反序列化时schema字段不完全匹配时,也ok
存储 原schema+数据 支持压缩
RPC = 序列化+传输(HTTP POST)
相较于thrift, protocal buffer的优点,动态类型 不生成代码
收集日志chukwa
agent(监控节点) + collector(写入hdfs)
MR最初主要用于日志处理, 但是集群中的机器日志不断地增加,会生成大量的小文件, 而MR在处理少量大文件数据时才会有最好的效果。 这就是chuka的设计目的
收集日志Flume
和chukwa类似, 不是apache亲生的, 是flume是cloudera公司开源的。
也是agent + collector 架构
用类似shell命令的方式(支持通道符) 传递数据到HDFS
数据仓库 Greenplum
竞争对手oracle RAC -- 维护成本高, 需要很强的DBA
基于postgreSQL
------------------------
DAG计算框架Tez
多个MapReduce应用之间存在依赖关系
将HDFS - Map - Reduce - HDFS2 - Map2 - Reduce2 - HDFS3
转换成 HDFS - Map - Reduce - Reduce2 - HDFS2
减少中间写HDFS和读HDFS的IO开销
还可以优化Hive等引擎
----------------------
淘宝数据魔方
分为5层
数据源层 (日志,主站备库)
----1.5PB----> 计算层(1500节点-平均每台处理10TB的数据,hadoop集群/云梯, storm/银河)
----20TB-----> 存储层(MySql,hbase)
-------------> 数据查询层
-------------> 产品层 (数据魔方,淘宝指数)
GB - TB - PB
----------------------
TOP K问题
最热门的K个查询词
1, wordcount
2, 排序 -- map排序
K-means聚类
基于距离的迭代
1, map 划分类别
2,reduce 重新计算中心点位置
贝叶斯分类
信用卡审批
-----------------------
hdfs的读取
1,hdfs客户端访问namenode, namenode返回一个输入流对象(获得块位置)
2,用输入流对象访问DataNode读取数据。 一个个读取块,而不是并行的。
hdfs的写入
1, 在namenode中创建一个文件, namenode返回一个输出流对象
2, 输出流会将文件分割成包,然后放入一个内部数据队列中
3, 写入datanode中,需要满足dfs.replication.min(默认是1),从队列中删除
4, 向namenode确认
注:dfs.replication(默认是3),文件会异步复制到其他datanode中,不会阻塞写入的时间。
--------------------
单独运行hadoop
start-dfs.sh
start-yarn.sh
hadoop jar .//share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /tmp/demo.txt /out5
hdfs dfs -ls /tmp
hdfs dfs -rm -r /tmp/hadoop-yarn
hadoop dfsadmin -safemode leave
hdfs dfs -mkdir /input
hdfs dfs -copyFromLocal tristan/inputdata/*.txt /input
hadoop jar tristan/wordcount.jar /input/*.txt /out2
history 日志
mr-jobhistory-daemon.sh start historyserver
hbase 和 datanode 副本拷贝的区别
hbase用的就是datanode的副本,并可以指定需要有多少个副本
replication的副本具体放在哪些机器
在hdfs界面中点到具体某个文件中 Total number of blocks
- 大小: 67.3 KB
- 大小: 46 KB
分享到:
相关推荐
Hadoop学习总结,内容包括: 1. HDFS简洁 2. HDFS读写过程解析 3. MapReduce入门 4. MapReduce过程解析 5. Hadoop运行痕迹 6. MapReduce源码分析总结
Hadoop学习资料总结,值得推荐阅读学习 很好 非常好 值得拥有
大数据之Hadoop学习教程+笔记合计_超详细完整.zip
Hadoop学习笔记,自己总结的一些Hadoop学习笔记,比较简单。
Hadoop学习必看路线图,
Hadoop 学习笔记.md
hadoop学习整理的文档
1、 hadoop官方网站,首页会有最新动态。 2、 Nutch ->谷歌GFS论文->doug 根据GFS设计了NDFS、06年启动hadoop项目。 3、 环境支持 操作系统 Linux 、WINDOWS-Cygwin、hadoop-for-windows JDK支持 下载jdk,解压jdk...
java及hadoop学习资料,很全的 java有113节。hadoop讲的也很详细。希望大家认真学习
hadoop学习笔记,hadoop简介,适用于hadoop入门,讲解hadoop安装,使用,基本原理,大数据,分布式等概念
hadoop 学习笔记,从搭建环境开始到具体实验。包括hdfs配置,yarn配置,分布式配置,如何编写mapreuduce 一步一步手把手,最后项目是hadoop 与 javaweb
Hadoop学习之路(三)Hadoop-2.7.5在CentOS-6.7上的编译
hadoop学习总结,包含HDFS简介,HDFS读写过程解析、Map-Reduce入门、Map-Reduce的过程解析、Hadoop的运行痕迹
hadoop学习手册
有计划的安排大数据的学习之路,可以在对Hadoop的学习规划上有一个更清晰的目标!
hadoop学习资料,基础学习。。。。。。。。。。。。。。
Hadoop学习时间轴 MapReduce 记录处理等
hadoop学习源码学习(二)Mapreduce学习源码学习(二)
hadoop学习总结.ppt