`
lxy2330
  • 浏览: 460092 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

当前比较适用的海量小文件系统架构方案

 
阅读更多
现在的网站越做越大了,存储的东西越来越多,如何解决这些文件存储也成了新的难题。如果把这些文件都完全采用大硬盘存储来解决,并不是一个好主意,因为数据量越大风险就越高,虽然文件能存得下,但是故障率相应会较高,另外重建耗费时间也比较长。所以最好的办法是尽可能考虑分布式存储,把文件想办法利用网络分散到多个机器上。

从我所了解的存储结构来看,分布式存储大致可以分为几种:

1、类googlefs的分布式文件系统

因为目前googlefs没有开源,所以网上出现的分布式文件系统都是利用google的方案自行实现的。这个方案的优点是可用性比较高,基本上基于硬盘的应用都可以处理,可用范围就比较广泛。我看了gfs、gfs2、ocfs2、FastDFS、MogileFS的一些相关介绍,大致有一些认识。

首先是文档比较少而出现的问题倒不少;然后是目前这些还没有一个能称得上是稳定版本,如果有的话,估计也就是其中一些收费的版本。因为磁盘存储乃是致关重要,所以目前建议还是不要轻易把这些东西部署到重要的地方。假如非常想使用的话,最好是做好充分测试,确保它的功能完全能够满足需要;然后还要想办法在传统的文件系统中做好完全的备份,以免造成损失。

另外可以提的一个东西是memcached,这个东西实现了内存的分布式共享,稳定度貌似比以上这些分布式文件系统要稳定。不过是完全基于内存的,如果数据量不是很大,可以一试。

2、手工使用文件路径分散存储

这个结构通常使用在web静态文件中,就以这种情形作为例子。

如果这些文件数量比较大,可以通过分散文件路径,把某个文件的访问指定到特定的一台或几台服务器上。例如:

1)采用域名的分散策略

例如使用a.xxx.com/b.xxx.com...来区分标记为a或b的一系列文件,这些文件存储的时候,依然按照标记,存到a或b的服务器上。这个策略将区分机器的任务交由dns服务器来执行,扩容时会相应轻松。这需要web项目初期就规划好这些东东,后期才转用域名策略的成本比较高甚至不可以实现。

2)采用目录的分散策略

假如域名初期并没有规划使用域名策略,那么可以采用代理服务器来进行目录级的划分。比如一般存储大量文件时,因为文件系统的限制以及效率问题,都会按照一定规则划分了很多级的目录,按这些目录拆分机器也并不是困难的事情。这种架构的问题在于代理服务器的性能和可靠性问题,需要在这点上稍下一点功夫。

以上这两个方案,都要自行制定策略实现分散同步传输,传输一般可以归纳为推送和抓取两种办法,同步的话可以采用日志同步(把要同步的数据记入日志,通过日志记录来传输相应文件)、比较同步(使用rsync等同步软件)或即时同步(有新的修改就立刻传输);另外要实现单点故障剔除的话,首先找一个策略把文件存储到多个节点上,例如,a.xxx.com或目录a的文件相应也存到b和c节点;然后在环境中使用故障剔除技术(lvs或nginx等),就可以解决问题,例如:采用域名的话,可以采用lvs,缺点是使用的机器就会成倍增加;亦可再用一级代理服务器,缺点是会牺牲性能。采用目录的话,因为本身就用到了代理服务器,所以只要存储得当,实现比较容易。

--------------------------------------------------------------------------------
分享到:
评论

相关推荐

    桃源文件系统v3.3

    桃源企业文件管理系统 v3.3官方免费版 软件介绍:《桃源企业文件管理系统》适用于任何机构内部或内外之间的电子文档存储管理、网络服务、传阅签收、公文审批等业务流程,便于机构全体、部门、个人的电子文档共享,...

    桃源企业文件管理系统v3.2

    详细介绍 - [ 桃源企业文件管理系统 v3.2 官方免费版 ] 《桃源企业文件管理系统》适用于任何机构内部或内外之间的电子文档存储管理、网络服务、传阅签收、公文审批等业务流程,便于机构全体、部门、个人的电子文档...

    桃源企业文件管理系统 3.2.rar

    《桃源企业文件管理系统》是在桃源网络硬盘5.X成熟平台上,针对企业、政府、学校、科研、传媒等企业级用户应用的开发的专业电子文档网络服务系统。 《桃源企业文件管理系统》适用于任何机构内部或内外之间的电子...

    桃源企业文件管理系统 v3.3.zip

    桃源企业文件管理系统3.3更新说明: 增加手机HTML5版,手机可扫描首页二维码访问或通过http://网址/html5/访问(仅商业版提供) 共享的文件和文件夹后台管理员可以设置固顶 插件批量上传也要能够设置重名文件自动...

    大数据方案介绍.docx

    典型云计算平台架构 开源成熟的hadoop生态体系 ... 大数据分析平台 一、海量数据存储及扩展能力 基于分布式HDFS文件系统存储,HA高可用配置, 数据多副本,异地备份容灾能力,以最经济的硬件成本支持海量数据存储和扩容

    桃源企业文件管理系统源码 v3.2

    该源码是桃源企业文件管理系统源码 v3.2,源码系统比较完整,而且是该行业中比较不错的,用户量也很多,界面设计业还可以吧,值得大家的学习与借鉴,喜欢的朋友可以研究一下吧。 一、系统特点: 1、强大文件上传:...

    智能呼叫中心解决方案.pptx

    提升客户体验 智能质检+情绪识别 海量平台沉淀语音数据库 全量实时用户数据标签 精准大数据分析 核心数据库 智能板块 核心系统 智能呼叫中心解决方案全文共14页,当前为第5页。 初衷与理念智能语音生态圈 核心系统 ...

    hp刀片服务器解决方案.docx

    hp刀片服务器解决方案全文共5页,当前为第1页。hp刀片服务器解决方案全文共5页,当前为第1页。竭诚为您提供优质文档/双击可除 hp刀片服务器解决方案全文共5页,当前为第1页。 hp刀片服务器解决方案全文共5页,当前为...

    主题数据库分析挖掘系统参数.docx

    《信息安全技术-信息系统安全管理要求》(GBT20269-2006) 《信息安全技术-信息安全管理实用规则》(GBT19176-2005) 《国家公共卫生信息系统建设方案》 三、建设目标 1、建立大数据分析系统,通过数据整合,提升...

    大数据面试题(2).docx

    方案3: 与方案1类似,但在做完hash,分成多个文件后,可以交给多个文件来处理,采用分布式的架构来处理(比如MapReduce),最后再进行合并。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16...

    大数据与人工智能.pptx

    海量非结构化数据 文本、语音、图片 (分布式)文件系统 目录结构 支持大文件 元数据服务器成为瓶颈 对象存储 去中心化 Key-Value 架构 支持小文件 分布式元数据存储 大数据与人工智能全文共42页,当前为第15页。...

    桃源网络硬盘 5.8.zip

    数年来累计服务器装机量过万套,上千用户积极提议,上百次修改完善,该软件功能、性能和架构体系渐趋成熟,是一套可以正式、安全、商用的高性能网络软件系统(解决方案)。 对于E-mail不能普遍支持大容量附件,...

    大数据存储方式概述.docx

    企业信息架构如何适应现状去提供一个较为理想的解决方案,目前业界有几个发展方向。 1.存储虚拟化 对于存储面临的难题,业界采用的解决手段之一就是存储虚拟化。虚拟存储的概念实际上在早期的计算机虚拟存储器中 就...

    数据分析方法与技术.pptx

    分布式 文件系统 海量 数据存储 大规模计算 智能 分析算法 Zoo Keeper 明细数据 E T L 报表展示 数据分析 数据挖掘 元数据管理 数据质量监控 数据监控 数据集市 数据应用 汇总加工数据 数据应用 数据仓库 源数据 ...

    大数据分析一体机.pptx

    关系图等 存储 结构化数据: 海量数据的查询、统计、更新等操作效率低 非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储 解决方案: ...

    大数据分析平台.docx

    生态系统图 大数据处理平台担负着为BI系统提供语义层/OLAP引擎等底层技术支撑、BI及ERP系统的性能提升、以及数据挖掘、非结构化数据处理等系列数据整合与处理的解决方案。 具体模块包括: 语义层:为统一的查询建模...

    智能制造生产设备预测性维护平台.pptx

    2020.07.26 生产设备预测性维护平台 建设方案 智能制造生产设备预测性维护平台全文共26页,当前为第1页。 工业IOT平台 Industrial IOT Platform 02 04 健康管理平台 Health Management Qlatform 03 机器学习平台 ...

    【网络安全】物联网安全-刘.pptx

    恶意行为模型的建立 密文查询、秘密数据挖掘、安全多方计算、安全云计算技术等 移动设备文件(包括秘密文件)的可备份和恢复 移动设备识别、定位和追踪机制 【网络安全】物联网安全-刘全文共34页,当前为第8页。...

    大数据处理的关键技术.docx

    考虑到系统由大量廉价易损的硬件组成,为了保证文件整体可靠性,大数据通常对同一份数据在不同节点上存储多份副本,同时,为了保障海量数据的读写能力,大数据借助分布式存储架构提供高吐量的数据访问. 超人学院...

    【二手车交易网站】PHP千博地方多商户二手汽车在线交易网站商城系统

    不只云云,千博二手车网站体系的 N 层架构设计,为体系提供了充实的可伸缩的特征,使千博二手车网站体系扩大机能够顺应各类信息化网站平台的范围和使用需要。 千博二手车网站体系精彩的数据处置惩罚能力,表现在它对...

Global site tag (gtag.js) - Google Analytics