第一部份 高可用性系统概述
一、计算机系统的故障分类以及故障发生的概率分析
发生 原因 |
计算机软硬件故障 |
人为操作失误 电脑病毒 黑客入侵 失窃 |
资源不足引起的计划性停机。 |
生产地点的自然灾害。 |
产生 原因 |
硬件失效(如硬盘毁坏)。 软件设计缺陷——操作系统和应用程序有时存在缺陷使数据被破坏(如Y2K问题)。 |
人为因素不可避免——失误可以很容易地删除重要数据。 外面的系统破坏者在蓄意攻击系统。 |
业务的快速增长。 |
火灾、闪电、水灾、飓风、龙卷风以及地震都可能发生。 |
发生 概率 |
可能性最大、最频繁。 |
经常发生、与企业人员、网络设计有关。 |
业务增长越快的企业,发生亦越频繁。 |
发生概率较小。 |
预防 方法 |
实现硬件冗余,提高业务系统的高可用。 |
提高人员素质和系统自动化运行管理,加强网络安全防范。 |
系统设计考率业务的发展。 |
异地保存。 |
具体 措施 |
磁盘阵列 本地双机热备份 |
数据冷备份 安装杀毒软件 网络防火墙 |
本地双机热备份、增加硬件资源、软件升级。 |
数据冷备份 灾难恢复中心 |
二、高可用系统解决的问题
对现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少 的另一方面,计算机硬件与软件都不可避免地会发生故障,这些故障有可能给 企业带来极大的损失,甚至整个服务的终止、网络的瘫痪。对于那些任何停工都将产生严重的财产损失、名誉损失、甚至生命损失的关键性应用的企业或公司,系 统的高可用性显得更为重要。因此,必须有适当的措施来确保计算机系统提供不间断的服务,以维护系统的可用性。信息系统的可用性通常在两种情况下会受到影 响,一种是系统当机、错误操作和管理引起的异常失败,另一种是由于系统维护和升级,需要安装新的硬件或软件而正常关机。高可靠性软件必须为这两种情况提供 不间断的系统服务。
三、高可用性的定义及与容错技术比较
(1)高可用性与容错技术
高可用性HA(High Availability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。它与被认为是不间断操作的容错技术有所不同。HA系统是目前企业防止核心计算机系统因故障停机的最有效手段。
容错FT(Fault Tolerant)技术一般利用冗余硬件交叉检测操作结果。当发现异常时,故障部件会被隔离开而不影响用户的操作。
高可用性方案则利用更少的冗余部件同时由软件检测故障,一旦故障发生立即隔离损坏部件,通过提供故障恢复实现最大化系统和应用的可用性。
容错技术随着处理器速度的加快和价格的下跌而越来越多地转移到软件中。未来容错技术将完全在软件环境下完成,那时它和高可用性技术之间的差别也就随之消失了。
(2)高可用性系统的功能
F 软件故障监测与排除
F 备份和数据保护
F 管理站能够监视各站点的运行情况,能随时或定时报告系统运行状况,故障能及时报告和告警,并有必要的控制手段
F 实现错误隔离以及主、备份服务器间的服务切换
(3)故障恢复
建立一个故障恢复系统,每一个重要部件都必须配有冗余备件,当一个部件出现问题时,它会自动被备件替代而不影响系统正常运行,这就是常说的故障恢复。
高可用性系统的目标是尽量实现不停机操作。故障被掩饰掉,而且尽量不修改最终的应用程序。
(4)服务延续性
保持系统的正常运行非常重要,除了人为错误操作和管理引起的异常失败外,正常的软硬件维修时不影响系统运行也很关键。开放系统使大量供应商带来了大量不同 的软件产品,每一种产品都有自己的升级周期,最简单的系统也要有2到3个主要部件在不同时候做升级,这就大大降低了系统的可用性。因此,也需要为升级和阶 段性维护创建相应的容错环境。
(5)实现高可用
高可用性更注重整体资源的可用性而不是某一物理部件的可用性,因此它有系统级和部件级之分。为了实现高可用性,服务器、应用程序以及周围环境被整体当作一个系统来看待。任何一个有可能影响系统正常运行的故障都会被发现和修复,保证系统尽快地恢复运行。
第二部分 ROSE HA高可用性软件
美国ROSE数据公司(ROSE Datasystem Inc.)是一家专门从事高可用性系统设计及研发的公司,主要产品ROSE HA是基于Windows NT/2000、UNIX、LINUX、Solaris、SCO UNIX for IBM等操作系统平台的高可用性软件,为Client/Server结构的应用提供高可用性的解决方案。ROSE HA在国内的主要用户有:上海宝山钢铁公司、武汉市工商银行、沈阳电信局、上海埔东电信局、佛山人民银行、湖南邮电局、长沙电信局、上海汇廉商场、外经贸部、广东珠海公安局、邮电部OA系统、各地电信97工程及新华社等等。
一、 ROSE HA高可用性软件的工作模式
工作原理:主机工作,从机处于监控准备状况;当主机宕机时,从机接管主机的一切工作,待主机恢复正常后,按使用者的设定以自动或手动方式将服务切换回主机上运行。
(2) 双工方式
工作原理:两台主机同时运行各自的服务工作且相互监测情况,当任一台主机宕机时,另一台主机立即接管它的一切工作,保证工作实时。
二、 ROSE HA高可用性软件的组成
ROSE HA软件的组成
服务程序(Service)
为客户提供服务的进程,如NFS或Oracle、Sybase、Informix等数据库服务。
HA代理(Agent)
HA代理监视服务的可用性,并向HA管理进程报告服务的状态。
HA管理进程(HA Manager)
HA管理进程是ROSE HA软件的核心进程,由它来初始化系统配置,接来自HA代理的信息,并通过私用网与其它服务器的HA管理进程通信,协调运行服务器与备份服务器间的关系。
GUI管理工具(Administration Tool)
系统管理者通过GUI管理工具管理、监视服务的运行状态。
三、 ROSE HA软件的运行过程
系统启动后,ROSE HA首先启动HA MANAGER管理程序,根据高可用性系统的配置结构初始化,然后启动必要的服务和代理程序来监控和管理系统服务。HA代理程序用来监控、监测、诊断和管理硬件软件服务。
代理程序检测到该服务处于活动状态,HA MANAGER就会认为该服务处于活动状态,HA MANAGER会定时通知后备服务器上的HA MANAGER,其每项服务处于正常。
当代理程序检测到某个服务发生故障时,它就通知HA MANAGER管理程序。HA软件首先会重新起动该服务多次(可由用户设定),如果启动不能成功,该服务会由HA转移到后备服务器上。
HA周期性地检测系统硬件的状态,如果硬件发生故障,HA会把与该硬件相关的服务转移到后备服务器上。
当某项服务发生转移时,HA首先在运行服务器上停止该服务,之后,由备份服务器上的HA在备份服务器上启动该服务。由于停止和启动该服务都需要一定的时间,所以当服务被切换(转移)时,该服务会有短暂的中断,转移完成后,服务自动恢复正常运行。
考虑到一些数据库系统(如Oracle、Sybase、Informix等)以及其他一些应用软件(如Domino Server、WWW Server等),ROSE HA在HA管理模块(HA Manager)的基础上,提供了一系列的Agent软件模块。
Agent为一个软件监视模块,监控数据库服务或其他应用服务的运行。当运行服务器发生故障时,由Agnet检测到之后,Agent向HA主控软件请求,进行相应的处理动作。
总之,ROSE HA软件极大程度上减少了人的介入,提高了系统的可靠性与安全性,使服务能高可靠的运行。
相关推荐
该软件延续了RoseHA成熟、稳健的系统监控技术,并从2节点平滑升级到多节点的集群环境,它通过监控应用程序、数据库、操作系统、存储资源、客户端访问资源等各类计算机软件和硬件资源的运行状态,实现核心信息系统高...
RoseHA软件工作原理 RoseHA软件所需具备的安装环境; RoseHA软件的安装; RoseHA软件的配置; RoseHA软件的常见问题及解决方案;
roseHA是利用系统磁盘阵列实现系统的高可用性,保证软件系统7*24不间断运行产品
RoseHA双机系统的两台服务器(主机)都与磁盘阵列(共享存储)系统直接连接,用户的操作系统、应用软件和RoseHA高可用软件分别安装在两台主机上,数据库等共享数据存放在存储系统上,两台主机之间通过私用心跳网络...
尤其在一些关键行业的关键应用上,应用的后台核心系统是否具有高可用性能力,已经成为影响一个公司业务成败的关键因素。 高可用性包括保护业务关键数据的完整性和维持应用程序的连续运行等方面。在这些信息处理...
RoseHA是利用共享磁盘阵列实现系统高可用性,保证应用系统7*24不间断运行的软件产品。ROSE HA软件同时安装在两台主机上,用于监视系统的状态,协调两台主机的工作
RoseHA是利用共享磁盘阵列实现系统高可用性,保证应用系统7*24不间断运行的软件产品。ROSE HA软件同时安装在两台主机上,用于监视系统的状态,协调两台主机的工作。
该软件延续了RoseHA成熟、稳健的系统监控技术,并从2节点平滑升级到多节点的集群环境,它通过监控应用程序、数据库、操作系统、存储资源、客户端访问资源等各类计算机软件和硬件资源的运行状态,实现核心信息系统高...
HA是一套提供防止业务主机因不可避免的意外性或计划性宕机问题的高可用性软件。ROSE HA软件同时安装在两台主机上,用于监视系统的状态,协调两台主机的工作,维护系统的可用性。它能侦测应用级系统软件、硬件发生的...
RoseHA是基于共享磁盘阵列的高可用集群,保证业务系统连续运营;RoseHA(Multi-node)是基于共享磁盘阵列多节点的高可用集群,保障业务系统连续运营;RoseStor DS提供了存储双活、业务连续性、全容错架构的高级别...
roseHA for windows,可用于测试环境。roseHA是利用系统磁盘阵列实现系统的高可用性,保证软件系统7*24不间断运行。不容易找到,特共享资源。
该系统选用互备运行模式的双机备份高可用性集群及基于RoseHA和共享磁盘阵列的双机热备方案,提高了系统的可靠性。应用结果表明,与单服务器的预警系统相比,基于双机热备的瓦斯灾害预警系统的平均无故障间隔时间大幅...
RoseMirrorHA成熟的数据镜像技术,全面的高可用性支持,即保证了系统的最佳的性能,最高的可靠性,同时又通过丰富的应用支持,灵活智能的控制机制,简单易用的管理配置,是最佳性价比的纯软高可用性解决方案。 服务器集群...
1.2 双机容错部分构成 例如: ROSE HA FOR WIN2003SERVER 容错软件 HP公司的F200磁盘阵列系统 HPDL580G4两台 1.3 方案简介 系统以WN2003为平台,F200磁盘阵列及ROSE HA软件为核心,常用数据库及网络数据存放在磁盘...
1.2 双机容错局部构成 例如: ROSE HA FOR WIN2003SERVER 容错软件 HP公司的F200磁盘阵列系统 HPDL580G4两台 1.3 方案简介 系统以WN2003为平台,F200磁盘阵列及ROSE HA软件为核心,常用数据库及网络数据存放在磁盘...