阅读更多
【编者按】携程宕机事件留给业内无数反思。官方最初说法是“部分服务器遭到不明攻击”,然而“紧急恢复”迟迟不成功,5月29日凌晨恢复服务后,携程称是“员工错误操作导致”。而网上流传的说法,说数据库数据和备份数据被物理删除者有之,说各个节点的业务代码被删除有之,不一而足。本文根据微信群的专家讨论和各公众号文章整理技术人应该得到的一些启示。

智锦,资深运维从业者,自动化运维和云计算倡导者,原支付宝运维团队创始人(微信公众号: 数据中心操作系统)

作为运维老兵,智锦第一时间在公众号也发了一篇深度文章《深入解析和反思携程宕机事件》

从现象上看,确实是携程的应用程序和数据库都被删除。这是一个由运维引发的问题,但真正的根源其实不仅仅在运维,预防和治理更应该从整个企业的治理入手。运维就是需要预防小概率事件,运维制度化是靠产品化去实现的,制度和流程要固化到产品中去。
真正有效的根源解决做法是从黑盒运维(运维人员不断的去做重复性的操作,不知道应用的依赖关系,哪些配置是有效配置、哪些是无效配置)走向白盒运维。和puppet这样的运维工具理念一致,运维的核心和难点其实是配置管理,运维人员只有真正的清楚所管理的系统的功能和配置,才能从根源上解决到处救火疲于奔命的情况,也才能真正的杜绝今天携程这样的事件重现,从根本上解决运维的问题。
从黑盒运维走向白盒运维,再进一步实现devops(开发运维衔接)和软件定义数据中心,就是所谓的运维2.0。单靠运维部门自身是做不到的,需要每一个企业的管理者、业务部门、开发部门去思考。

郭理靖,京东云平台开放云事业部与公有云事业部高级总监

在虎嗅发表了一篇文章《携程可能摊上大事了——崩溃原因分析之「高能技术贴」》分析的很深刻。

从这次攻击的事件来看,数据库整体被攻击的可能性非常大。虽然黑客有可能把数据从云存储的应用端删除,但是服务端这些数据可能还存在。数据是否可以恢复要取决于私有云存储的架构。从公开的报道来看,携程内部私有云用的是OpenStack,那么很有可能是使用Swift的存储,除非黑客也是非常熟悉Swift的架构,把Swift上的三个备份的机器找到,进行物理删除。否则,数据还是有可能恢复的。如果到备份到存储一体机,我相信数据还是有可能找的回来的。
最坏的情况是:黑客掌握了携程大部分机器的root权限,同时进行无差别的毁灭性的攻击的话(业务节点、数据库节点、存储节点),则后果不堪设想。

张鑫,ZStack发起者和总架构师,在微信群中提到:

我今天在想,与其运维产品化,是不是运维制度化更加重要,也更容易实现? 其次,下面的IaaS层是不是有问题?这个情况下,应该销毁已出问题的虚拟机,直接重新部署新的。而不是复用以前的,因为你根本不知道以前的里面感染了什么问题。

王津银,资深运维专家,曾参与腾讯、YY、UC运维(微信公众号:互联网运维杂谈)

很多技术层面的东西值得细敲,包括他们的DO分离,权限分级,重大变更的确认,统一的应用管理,灰度等等。灰度是最重要的变更策略,都不遵守。 必须把制度和流程固化 到产品中,把变更灰度作为工具的一部分,实现平台约束。
把灰度作为变更系统的默认功能,无论是配置管理的变更,还是上层应用的变更,都不会让运维人员一次对全网进行操作的。
灰度有两个层面:一个是运维侧的机器级灰度;二是应用级别灰度。对于一个变更行为来说,运维需要少量灰度部分机器,确认变更是否达到预期,然后在逐步放量。 另外应用级别的灰度,就是根据用户的信息进行灰度,比如说某个号段,某个区域的用户才能使用新的功能。进一步确定业务功能正常情况。
运维级别的灰度几乎是运维规范意识的一部分,需要通过平台约束,否则脚本型批量变更方式必然有这个后果。常在河边走没有不湿脚的。

胡茂华,多备份联合创始人& CEO ,曾就职于腾讯、盛大(旅游)、1号店,历任总监、CTO、技术副总裁

不难理解,携程做为一个在线海量交易平台,后端还连接一个3万人的呼叫中心系统,以及对接国内外的海量的机票和酒店库存系统,系统的耦合度非常高,应用程序部署在数万台服务器上,即使SOA实施的再完美,这些应用程序二次发布无论是自动发布还是半自动维护,二次重新部署时间一定很长,就这些war包应用程序都有可能把整个内网的流量撑爆,这些应用程序还要分发到不同的IDC,专线肯定都不够用,恢复时长在所难免,同时交易链条越长,整个服务可用性验证也很艰辛。
要防范此类异常情况,一是应用发布平台要改造,应用程序动静态分离,严格的工作流审批发布程序;二是核心流程自动化测试,缩短应用上线服务验证时间;三是所有在线应用程序都要做备份和版本管理,需要一个可视化的集中管理平台维护最新版本和应用之间的关系;四是重视演练,灾难恢复要做到一周一小练,一月一大练。
总之,运维是一个细活慢活,业务发展的再快再好,也要平时累积资源和能力,正所谓养兵千日,用兵一时,关键时刻还是得靠自动化工具和流程来约束,而不是人肉维护。

王涛,巨杉数据库联合创始人兼CTO,曾被CSDN评为 2014 TOP50最具价值CTO。作为原IBM DB2 Lab核心成员,数据库专家,就本次携程事件发表文章《携程事件反思:是时候重视数据库灾备了!

主备库之间的延迟。既然主备库分别部署在不同的数据中心,互联网延迟则是必须考虑的因素。主备库之间的延迟越小,当主库出现故障时丢失的数据越少。例如如果主备库之间的延迟可以缩小到一秒钟以内,当主库所在的系统出现人为或非可控灾难的时候,主备库切换所造成的数据损失会被限定在一秒钟内,这样和整个门户网站的瘫痪比起来,企业所遭受的损失几乎可以忽略不计。

占用带宽小。一般来说,主备数据中心之间的网络带宽非常昂贵。由于主备数据中心之间的网络一般都是跨广域网的,因此其带宽的承受能力绝对不能像局域网那样假设为千兆或万兆带宽。因此,在网络传输时数据通道的条数,数据传输时的压缩比率都是非常重要的指标。

安全的传输通道。既然数据是跨广域网的传输,如果有人在机房外架设嗅探器,是否可以截获我们的网络通讯呢?如果主备节点之间总是以明文通讯,这绝对是一个非常重大的安全隐患。因此,主备数据中心之间的数据通讯是否加密则是第三个重要的安全指标。
除此之外,还有安全领域专家的多篇分析。
携程目前已经恢复正常,并在5月29日1:30分发布声明:
引用
5月29日1:30分,经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。携程官方网站及APP已于28日23:29全面恢复正常。对用户造成的不便,携程再次深表歉意。

当服务越加互联网化,技术就越加重要,技术人的责任感和使命感就要越强。没有十全十美的技术,但可以有更多方案来保障服务的正常运营。留给大家的思考还有很多。
2
2
评论 共 1 条 请登录后发表评论
1 楼 ray_linn 2015-05-29 15:13
淘宝携程都一样,连 BCRP 都没做,吹牛皮的时候挺厉害。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 电源技术中的低压差调节器—为什么选择旁路电容很重要

    然而,与所有电子器件一样,电容并不是十全十美的,相反,电容会带来寄生等效串联电阻(ESR)和电感(ESL)的问题,其电容值会随温度和电压而变化,而且电容对机械效应也非常敏感。  虽然人们普遍认为电容是解决噪声...

  • PCB技术中的在精密电阻应用中更小并不意味着更好

    SMT技术也不是十全十美的。  更小有时意味着更热  由于功率密度的原因,表贴式片状电阻在工作时的温度要比通孔器件高。表贴(SMT)器件的热量绝大部分通过PCB散发,而通孔器件的热量大部分散发到周围空气中。...

  • 如何做好直销《天狮十全十美》.pptx

    如何做好直销《天狮十全十美》.pptx

  • HTTP长连接与短链接以及推送技术原理

    HTTP长连接和短连接以及推送服务... ... 1. HTTP协议与TCP/IP协议的关系 ...IP协议主要解决网络路由和寻址问题,TCP协议主要解决如何在IP层之上可靠的传递数据包,使在网络上的另一端收到发端发出的所有包,并且顺序与发

  • 技术领导力

    下述内容,为阅读完《技术领导力》结合自身经历而来,有摘要有感悟~~ ​ 领导力(Leadership)指在管辖的范围内充分地利用人力和客观条件在以最小的成本办成所需的事,提高整个团体的办事效率的能力。 ​ 在新...

  • 微服务架构基础组件:服务通信+事件驱动+负载均衡+服务路由+API网关+配置管理

    微服务架构的实现首先需要提供一些基础组件,这些基础的功能性组件主要包括服务之间的通信、面向事件驱动的架构设计方法、负载均衡、服务路由、API网关和分布式配置中心等,我们对这六大基本组件进行初步的分析定案...

  • 技术专家-项目经理

    技术专家的优秀品质,却未必适应项目经理岗位,那么转型为管理人员的专家们,需要做出哪些调整呢?  现实当中的很多项目经理以前都是从事技术工作的,他们曾经是技术专家。对于所管项目的技术方面他们是非常熟悉...

  • 计算机技术博客博客知乎,我的技术博客的选择:CSDN、博客园、简书、知乎专栏仍是Github Page?...

    有不少技术人员在学习到必定程度后发现了写博客的重要性,一方面帮助本身记忆,一方面也能帮助他人解决问题,因而会选择本身开始写博客,以后又发现平台太多不知从何下手,在这里我根据本身写博客的经验比较一下各个...

  • 十全十美ZDS2022示波器全球首发——暨样机免费评测活动

     ZDS2022示波器凭借先进的软硬件设计,多项指标达行业之最,测量与分析性能空前优秀被誉为十全十美的示波器,可提供绝佳用户操作体验。  颠覆性的指标  十全十美之一:112Mpts存储深度,同档示波器中存储深度...

  • C++十全十美翻转棋小游戏课程设计.zip

    刚学习C++编写的一个翻转棋小游戏,只要将所有棋子反转成同一个颜色即可进入下一关。

  • iOS面试题非技术面试(四)

    1、你欣赏哪种性格的人?回答提示:诚实、不死板而且...回答提示:我们大家生来都不是十全十美的,我相信我有第二个机会改正我的错误。4、什么会让你有成就感?回答提示:为贵公司竭力效劳,尽我所能,完成一个项目。

  • 信息加密技术简介

    信息加密技术简介 随着互联网的快速发展,计算机信息的保密问题显得越来越重要。数据保密变换,或密码技术,是对计算机信息进行保护的最实用和最可靠的方法,本文拟对信息加密技术作一简要介绍。一、信息加密概述 ...

  • 通达信指标公式源码 改进型十全十美指标.doc

    通达信指标公式源码 改进型十全十美指标.doc

  • 区块链技术在各行业的应用解决方案

    原文链接:区块链技术在各文教的应用解决方案区块链使用去中心化的数据安全技术,可提升数据安全性,降低数据维护成本,推动组织智能化发展,未来有望在银行,审计,物联网,医疗,公证,版权管理等领域广泛应用,...

  • 通达信指标公式源码 十全十美 副图源码.doc

    通达信指标公式源码 十全十美 副图源码.doc

  • 你一定要知道的四个程序员接外包的网站,悄悄把技术变现!

    你一定要知道的四个程序员接外包的网站,悄悄把技术变现!

  • 十全十美源码

    十全十美

  • 简历-求职简历-word-文件-简历模版免费分享-应届生-高颜值简历模版-个人简历模版-简约大气-大学生在校生-求职-实习

    简历-求职简历-word-文件-简历模版免费分享-应届生-高颜值简历模版-个人简历模版-简约大气-大学生在校生-求职-实习 简历是展示个人经历、技能和能力的重要文档,以下是一个常见的简历格式和内容模板,供您参考: 简历格式: 头部信息:包括姓名、联系方式(电话号码、电子邮件等)、地址等个人基本信息。 求职目标(可选):简短描述您的求职意向和目标。 教育背景:列出您的教育经历,包括学校名称、所学专业、就读时间等。 工作经验:按时间顺序列出您的工作经历,包括公司名称、职位、工作时间、工作职责和成就等。 技能和能力:列出您的专业技能、语言能力、计算机技能等与职位相关的能力。 实习经验/项目经验(可选):如果您有相关实习或项目经验,可以列出相关信息。 获奖和荣誉(可选):列出您在学术、工作或其他领域获得的奖项和荣誉。 自我评价(可选):简要描述您的个人特点、能力和职业目标。 兴趣爱好(可选):列出您的兴趣爱好,展示您的多样性和个人素质。 参考人(可选):如果您有可提供推荐的人员,可以在简历中提供其联系信息。 简历内容模板: 姓名: 联系方式: 地址: 求职目标: (简短描述您的求职意

  • asp代码asp.net电子书城系统设计与实现(源代码+论文)

    asp代码asp.net电子书城系统设计与实现(源代码+论文)本资源系百度网盘分享地址

Global site tag (gtag.js) - Google Analytics