与普通HDFS对比,冷数据集群目的是不降低数据可靠性的前提下,减少磁盘开销。
经过facebook-hadoop版本和apache-hadoop(0.20至0.23)版本的比较,最后选型为facebook-hadoop版本。原因是apache-hadoop版本有许多缺陷,比如raidnode客户端没有实现placementmonitor,raidshell终端命令少的不忍直视(以后不好运维),bug太多等等。还有一个重要的原因考虑到facebook-hadoop版本facebook已经在成熟的运用之中。
有关radi技术可参考以下两篇文章:
http://jiangbo.me/blog/2012/12/21/hdfs-raid/
http://jiangbo.me/blog/2013/06/05/setup-hdfs-raid/
facebook-hadoop源码下载:https://github.com/facebook/hadoop-20
目前状况:
经过一个多月的研究和debug,facebook-raid冷数据集群已经搭建成功。不过在这过程中,遇到各种问题:
1. 编译问题
2. 网上讲的raid.xml配置和源代码的实现不一样
3. BlockMissingException类路径不一致
4. raidnode客户端fs.hdfs.impl要配置成org.apache.hadoop.hdfs.DistributedFileSystem
<property>
<name>fs.hdfs.impl</name>
<value>org.apache.hadoop.hdfs.DistributedFileSystem</value>
<description></description>
</property>
5. native包系统不兼容问题
6. 数据块分布问题,源码的实现是将数据块分布在不同机架上,需要将这个限制去掉,只保留分布到不同机器的原则就行。
总之是发现各种坑,不过源码的逻辑是比较清晰的。
目前成果:
实现冷数据facebook-raid集群的搭建,raid策略,每个stripe组4个数据块,校验块2个。相对于原来的hdfs集群3个副本的备份配置(总共占了300%的空间),facebook-raid总共只需要占用150%空间就能达到同样的效果,同样允许2台机器挂掉。
下图是冷数据集群管理, 数据上下线功能及任务进程追踪功能
相关推荐
基于moduo实现的集群聊天服务器和客户端源码,使用mysql数据库存储相关数据。采用nginx实现负载均衡,结合redis发布-订阅模式来实现在不同服务器上客户端进行通信。 基于moduo实现的集群聊天服务器和客户端源码,...
基于muduo库实现的集群聊天服务器,通过mysql存储数据,通过nginx实现tcp负载均衡,通过redis实现集群内服务器间的消息订阅发布。 基于muduo库实现的集群聊天服务器,通过mysql存储数据,通过nginx实现tcp负载均衡,...
数据库、集群系统实现方案详解数据库集群系统实现方案详解
应用分层架构和面向服务的软件开发思想,采用ICE中间件的网络通信技术,使用XML格式作为数据交换模式,研究并实现C/S(Client/Server)架构的灵活、友好、高效的遥感数据集群处理作业调度管理系统。
基于Linux的服务器集群系统设计及实现.pdf
Linux集群系统下数据传输的研究与实现
Aapche+Tomcat实现服务数据集群
quartz集群调度机制调研及源码分析,基于quartz 1.7版本
1、新旧redis集群迁移 2、支持redis集群的存量和增量数据迁移 3、支持redis集群数据的离线迁移
一种数据挖掘算法在Hadoop集群上的研究与实现.pdf
etcd集群备份和数据恢复
基于Linux的高性能计算集群搭建的实现,倪天伟,郑宝林,近年来,随着计算机技术和网络通讯技术的迅猛发展,网格计算技术正成为信息技术领域的研究热点。人们把越来越多的工作交给网格系
tomcat集群实现session复制tomcat集群实现session复制tomcat集群实现session复制tomcat集群实现session复制tomcat集群实现session复制tomcat集群实现session复制tomcat集群实现session复制tomcat集群实现session复制...
spark——大型集群快速和通用数据处理 对与当前大数据的学习很有参考价值
通过配置文件实现连接单机redis或集群redis demo,实现开发时使用单机redis,线上使用集群redis
与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 ...
weblogic安装 集群配置 数据源配置
精品社会调研报告范文2021威海产业集群调研报告.pdf
集群session共享jar包之tomcat8。集群插件,redis方式实现session共享插件
高可用性Linux集群实现 高可用性Linux集群实现 高可用性Linux集群实现