`
java风
  • 浏览: 56280 次
  • 来自: 北京
社区版块
存档分类
最新评论
  • 泛泛evil: 总结的很好,谢谢分享
    JavaScript
  • wanxkl: 哇!总结的太好了。。凤哥哥,你好强大啊。。请问您跟凤姐什么关系 ...
    css应用

分布式存储(转载)

    博客分类:
  • java
阅读更多

 

L1、HTML静态化
其实大家都知道,效率最高、消耗最小的就是纯静态化的html页面,所以我们尽可能使我们的网站上的页面采 用静态页面来实现,这个最简单的方法其实也是最有效的方法。但是对于大量内容并且频繁更新的网站,我们无法全部手动去挨个实现,于是出现了我们常见的信息 发布系统CMS,像我们常访问的各个门户站点的新闻频道,甚至他们的其他频道,都是通过信息发布系统来管理和实现的,信息发布系统可以实现最简单的信息录 入自动生成静态页面,还能具备频道管理、权限管理、自动抓取等功能,对于一个大型网站来说,拥有一套高效、可管理的CMS是必不可少的。

除了门户和信息发布类型的网站,对于交互性要求很高的社区类型网站来说,尽可能的静态化也是提高性能的必要手段,将社区内的帖子、文章进行实时的静态化,有更新的时候再重新静态化也是大量使用的策略,像Mop的大杂烩就是使用了这样的策略,网易社区等也是如此。

同 时,html静态化也是某些缓存策略使用的手段,对于系统中频繁使用数据库查询但是内容更新很小的应用,可以考虑使用html静态化来实现,比如论坛中论 坛的公用设置信息,这些信息目前的主流论坛都可以进行后台管理并且存储再数据库中,这些信息其实大量被前台程序调用,但是更新频率很小,可以考虑将这部分 内容进行后台更新的时候进行静态化,这样避免了大量的数据库访问请求。

2、图片服务器分离
大家知道,对于Web服务器来说,不管 是 Apache、IIS还是其他容器,图片是最消耗资源的,于是我们有必要将图片与页面进行分离,这是基本上大型网站都会采用的策略,他们都有独立的图片服 务器,甚至很多台图片服务器。这样的架构可以降低提供页面访问请求的服务器系统压力,并且可以保证系统不会因为图片问题而崩溃,在应用服务器和图片服务器 上,可以进行不同的配置优化,比如apache在配置ContentType的时候可以尽量少支持,尽可能少的LoadModule,保证更高的系统消耗 和执行效率。

3、数据库集群和库表散列
大型网站都有复杂的应用,这些应用必须使用数据库,那么在面对大量访问的时候,数据库的瓶颈很快就能显现出来,这时一台数据库将很快无法满足应用,于是我们需要使用数据库集群或者库表散列。

在数据库集群方面,很多数据库都有自己的解决方案,Oracle、Sybase等都有很好的方案,常用的MySQL提供的Master/Slave也是类似的方案,您使用了什么样的DB,就参考相应的解决方案来实施即可。

上 面提到的数据库集群由于在架构、成本、扩张性方面都会受到所采用DB类型的限制,于是我们需要从应用程序的角度来考虑改善系统架构,库表散列是常用并且最 有效的解决方案。我们在应用程序中安装业务和应用或者功能模块将数据库进行分离,不同的模块对应不同的数据库或者表,再按照一定的策略对某个页面或者功能 进行更小的数据库散列,比如用户表,按照用户ID进行表散列,这样就能够低成本的提升系统的性能并且有很好的扩展性。sohu的论坛就是采用了这样的架 构,将论坛的用户、设置、帖子等信息进行数据库分离,然后对帖子、用户按照板块和ID进行散列数据库和表,最终可以在配置文件中进行简单的配置便能让系统 随时增加一台低成本的数据库进来补充系统性能。

4、缓存
缓存一词搞技术的都接触过,很多地方用到缓存。网站架构和网站开发中的缓存也是非常重要。这里先讲述最基本的两种缓存。高级和分布式的缓存在后面讲述。
架构方面的缓存,对Apache比较熟悉的人都能知道Apache提供了自己的缓存模块,也可以使用外加的Squid模块进行缓存,这两种方式均可以有效的提高Apache的访问响应能力。
网 站程序开发方面的缓存,Linux上提供的Memory Cache是常用的缓存接口,可以在web开发中使用,比如用Java开发的时候就可以调用MemoryCache对一些数据进行缓存和通讯共享,一些大 型社区使用了这样的架构。另外,在使用web语言开发的时候,各种语言基本都有自己的缓存模块和方法,PHP有Pear的Cache模块,Java就更多 了,.net不是很熟悉,相信也肯定有。

5、镜像
镜像是大型网站常采用的提高性能和数据安全性的方式,镜像的技术可以解决不同网 络接入商和地域带来的用户访问速度差异,比如ChinaNet和EduNet之间的差异就促使了很多网站在教育网内搭建镜像站点,数据进行定时更新或者实 时更新。在镜像的细节技术方面,这里不阐述太深,有很多专业的现成的解决架构和产品可选。也有廉价的通过软件实现的思路,比如Linux上的rsync等 工具。

6、负载均衡
负载均衡将是大型网站解决高负荷访问和大量并发请求采用的终极解决办法。
负载均衡技术发展了多年,有很多专业的服务提供商和产品可以选择,我个人接触过一些解决方法,其中有两个架构可以给大家做参考。
硬件四层交换
第 四层交换使用第三层和第四层信息包的报头信息,根据应用区间识别业务流,将整个区间段的业务流分配到合适的应用服务器进行处理。 第四层交换功能就象是虚 IP,指向物理服务器。它传输的业务服从的协议多种多样,有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基础上,需要复杂的 载量平衡算法。在IP世界,业务类型由终端TCP或UDP端口地址来决定,在第四层交换中的应用区间则由源端和终端IP地址、TCP和UDP端口共同决 定。
在硬件四层交换产品领域,有一些知名的产品可以选择,比如Alteon、F5等,这些产品很昂贵,但是物有所值,能够提供非常优秀的性能和很灵活的管理能力。Yahoo中国当初接近2000台服务器使用了三四台Alteon就搞定了。

软件四层交换
大家知道了硬件四层交换机的原理后,基于OSI模型来实现的软件四层交换也就应运而生,这样的解决方案实现的原理一致,不过性能稍差。但是满足一定量的压力还是游刃有余的,有人说软件实现方式其实更灵活,处理能力完全看你配置的熟悉能力。
软 件四层交换我们可以使用Linux上常用的LVS来解决,LVS就是Linux Virtual Server,他提供了基于心跳线heartbeat的实时灾难应对解决方案,提高系统的鲁棒性,同时可供了灵活的虚拟VIP配置和管理功能,可以同时满 足多种应用需求,这对于分布式的系统来说必不可少。

一个典型的使用负载均衡的策略就是,在软件或者硬件四层交换的基础上搭建squid集群,这种思路在很多大型网站包括搜索引擎上被采用,这样的架构低成本、高性能还有很强的扩张性,随时往架构里面增减节点都非常容易。

 

 

下面也是一个牛人所做的总结,跟上面部分相同。 
高并发时,性能瓶颈及当前常用的应对措施 


1.数据库瓶颈。Mysql并发链接100 

2.apache 并发链接1500 

3.程序执行效率 



1.有数据库瓶颈时,当前处理方案无外乎 主从,集群。增加cache(memcached). 

如:手机之家新系统介绍及架构分享(http://www.slideshare.net/Fenng/ss-1218991?from=ss_embed) 

就是在cache层做优化 

又拍网架构(http://www.bopor.com/?p=652) 

是以增加数据库,分表分库的方法解决。 

Sina增加了mq(消息队列)来分发数据。 

还有风站用了key-value的数据库。其实这可以理解成一个持久化的缓存。 



2.apache瓶颈。 

增加服务器。负载均衡。如sina的F5 

由于进程数的限制。会把一些基本不变的代码挪出来放到单独的服务器。如css/js/图片。 

国内成功的案例是tom的cdn 


又如nginx的横空出世和squid的反向代理都是基于这个原因出来的。 


3.php的执行效率。原因有多个。 

1).本身的效率低。 

解决的成功案例是Zend Optimizer 和 facebooke的hiphop 

Taobao是把php代码编译成模块解决效率问题。 

2). 数据库查询效率问题。如可能有order by ,group by 等Sql数据问题。 

这个其实应该归结到数据库设计问题。 


解决的办法是建立正确的索引。增加memcache.。 

对like表 用专用的sphinx.和lucence 等搜索服务。 

程序员都应该会用explain对sql语句作分析。

 

 

Nginx代理图片、css等静态文件

varnish反向代理,缓存shtml(可缓存动态文件)

resin处理不必缓存的动态文件

MVC和Hibernate中增加缓存

并发量大的时候加集群

分享到:
评论

相关推荐

    DistributedSystem-Series:深度浅出分布式基础架构,Linux与操作系统篇|分布式系统文章|分散计算篇|数据库篇|网络篇|虚拟化与编排篇|大数据与云计算篇

    所谓的分布式系统,其主要由网络,分布式存储与分布式计算等部分构成,分布式存储侧重于数据的读取访问和一致性等方面,而分布式计算则侧重于资源,任务的编排调度。 导航|关联导航 如果你想了解微服务/云原生等...

    zipkin-server.rar

    Zipkin 是一个开放源代码分布式的跟踪系统,每个服务向zipkin报告计时数据,zipkin会根据调用关系通过Zipkin UI生成依赖关系图。 Zipkin提供了可插拔数据存储方式:In-Memory、MySql、Cassandra以及Elasticsearch。...

    9、hadoop高可用HA集群部署及三种方式验证

    版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130344998

    大数据的存储和管理.pdf

    ⼤数据的存储和管理 也欢迎⼤家转载本篇⽂章。分享知识,造福⼈民,实现我们中华民族伟⼤复兴! ⼤数据的存储和管理 任何机器都会有物理上的限制:内存容量、硬盘容量、处理器速度等等,我们需要在这些硬件的限制和...

    大数据离线计算的架构与组件.pdf

    ⼤数据离线计算侧重于从以下⼏个维度解决传统BI⾯临的瓶颈: 分布式存储: 将⼤⽂件按照⼀定⼤⼩拆分成多份,分别存储到独⽴的机器上,并且每⼀份可以设置⼀定的副本数,防⽌机器故障导致数据丢失,这种存储⽅式⽐...

    RocketMQ〖六〗消息的存储,高可用性机制,负载均衡

    RocketMQ〖六〗消息的存储,高可用性机制,负载均衡一....分布式队列因为有高可靠性的要求,所以数据要进行持久化存储。 消息生成者发送消息 MQ收到消息,将消息进行持久化,在存储中新增一条记录 返

    Spark整合Flume项目源码.rar

    Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 在推送式方法 (Flume-...

    java异步编程框架

    Vert.x最大的特点就在于异步(底层基于Netty),通过事件循环(EventLoop)来调起存储在异步任务队列(CallBackQueue)中的任务,大大降低了传统阻塞模型中线程对于操作系统的开销。因此相比较传统的阻塞模型,异步...

    传智健康-项目源码+项目总结

    (分布式与权限) Git,Apache POI,Echarts (版本控制与报表) 腾讯云短信服务,七牛云存储服务,微信开发平台 (第三方服务) ———————————————— 版权声明:本文为CSDN博主「Alkaid..」的原创文章,...

    kibana-6.3.2-amd64.deb

    同时ES还是一个分布式文档数据库,其中每个字段均可被索引,而且每个字段的数据均可被搜索,能够横向扩展至数以百计的服务器存储以及处理PB级的数据。 可以在极短的时间内存储、搜索和分析大量的数据。通常作为具有...

    我国GIS软件的发展现状

     GIS针对特定的应用任务,存储事物的空间数据和属性数据,记录事物之间的关系和演变过程。它可根据事物的地理坐标对其进行管理、检索、评价、分析、结果输出等处理,提供决策支持、动态模拟、统计分析、预测预报等...

    计算机二级C语言考试题预测

    今年9月份参加计算机二级考试的同学请转载 作者:天使~之戀 已被分享1次 评论(0) 复制链接 分享 转载 删除 下面的138道题目,在二级考试中命中率极高。 一、选择题 (1) 下面叙述正确的是(C) A. 算法的执行效率与...

    用Java实现人工智能编程.pdf

    ⽤Java实现⼈⼯智能编程 朋友们,如需转载请标明出处: 很少有程序员不对这⾥或者那⾥所包含的⼈⼯智能编程所吸引,然⽽,许多对AI感兴趣的程序员很快就因其中包含的算法的复杂性⽽退 却。在本⽂中,我们将讨论⼀个...

    大数据下的数据分析平台架构.pdf

    海量数据级别的优秀企业级产品也有很多,但基于软硬件的成本 原因,⽬前⼤多数互联⽹企业采⽤Hadoop的HDFS分布式⽂件系统来存储数据,并使⽤MapReduce进⾏分析。本⽂稍后将主要介绍 Hadoop上基于MapReduce的⼀个多维...

    招聘门户网站系统设计方案.doc

    端数据服务器的数据库中存储信息以实现信息的共享同时利用Internet技术可以降低软 件的开发和部署成本 数据库使用MYSQL该数据库可以在Windows,Linux下运行支持SQL97多用户、多线程 SQL数据库服务器同时是具有客户机/...

    asp.net知识库

    从NUnit中理解.NET自定义属性的应用(转载) 如何在.NET中实现脚本引擎 (CodeDom篇) .NET的插件机制的简单实现 我对J2EE和.NET的一点理解 难分难舍的DSO(一) InternalsVisibleToAttribute,友元程序集访问属性 ...

Global site tag (gtag.js) - Google Analytics