转自phphot
Twitter 的运维专家 John Adams 在 Velocity 2009 上做了一篇题为 Fixing Twitter 的技术分享(PDF ),人家也是一直在努力阿。John Adams 在 2008 年七月加入的 Twitter ,对于 Twitter 的站点稳定的确做了不少工作。
Twitter 运维团队的职责:
- 软件性能(后端) Software Performance (back-end)
- 可用性 Availability
- 容量规划 Capacity Planning (metrics-driven)
- 配置管理 Configuration Management
看完这个接近 50 页的 PDF ,除了满足我们一小部分技术窥探的癖好,或许也可以学到点什么。
不重复发明轮子
对于监控,Twitter 用的就是 RRDtool ,Ganglia 、MRTG 这些已经成为很多网站标准配备的组件。而不是自己写一大堆功能重复的东西。值得注意的是, Twitter 也一直在用 Google Analytics 进行业务分析。
不重复发明轮子,可以打磨轮子,比进行如一些功能脚本定制之类的工作。
发明不重复的轮子
Twitter 开源了他们自己用的一个 Apache 模块 mod_memcache_block (a distributed IP blocking system),这个模块根据 HTTP 代码请求限制访问频率。熟悉 Twitter 的朋友会知道这是针对第三方应用程序的必须的一个功能,否则的话,会产生类似 DDos 的效果 :) John Adams 说这个模块是他多年以来就期待的东西,我相信,如果有人已经做了同样的事情,他们肯定不会自己再写一个。
尽可能的自动化
无论是配置管理还是针对各项功能的"开关",都尽可能的自动化。依赖于人来控制一些事情容易"规范",但是流程冗杂,节奏变慢。
更好的理解硬件
拥抱新技术体系,使用更有经济效益的硬件(比如对 8 核 CPU 的选型与更换)会带来更好的收益。而这个要建立在对硬件体系的正确理解上才行。
另外几句话要记住:
- Disk is the new Tape. (内存是新类型的磁盘. 磁盘是新类型的磁带)
- Kill long running queries before they kill you. (问题是如何提前发现? 有效的监控!)
- Use metrics to make decisions, not guesses.
- "Cache Everything!" not the best policy
分享到:
相关推荐
FixingTwitter twitter运维资料
5 Twitter运维经验 5 运维经验 5 Metrics 5 配置管理 5 Darkmode 5 进程管理 5 硬件 5 代码协同经验 5 Review制度 5 部署管理 5 团队沟通 5 Cache 5 云计算架构 5 反模式 5 单点失败(Single Point of Failure) 5 ...
王亚雷-Twitter 千万 QPS 分布式系统的架构设计和高效运维
藏经阁-Twitter 千万 QPS 分布式系统的架构设计和高效运维.pdf
当今世界,公司的日常运营经常会...我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。然而Storm远比Hadoop来的简单,因为用它处理大数据不会带来新老技术的交替。
在刚刚起步的小公司,中型的Twitter以及规模庞大的Facebook做运维有什么不同?在硅谷十几年做这一行都经历了一遍。互联网时代的小公司里面做运维的人都是十项全能,在这样的环境中你的目标只有一个那就是支撑产品的...
用脚也能想得出来:Google、baidu、淘宝、亚马逊、twitter等IT巨头 背后的巨型计算平台都是分布式系统了,甚至就连一个简单的微信公众号应用的后端也都分布式了,即便仅有几台机器而已。分布式让系统富有弹性,面 对...
讲述了Dapper在谷歌内部两年的演变和设计、运维经验,Twitter也根据该论文开发了自己的分布式跟踪系统Zipkin,并将其开源,但不知为啥没有贡献给Apache。其实还有很多的分布式跟踪系统,比如Apache的HTrace,阿里的...
Twitter Nginx O'Reilly 技术网站 github stackoverflow 简明现代魔法 segmentfault 伯乐在线 掘金 V2EX 运维生存时间 MDN Web 文档 个人博客 陈皓 酷壳 阮一峰的个人网站 冯大辉 Fenng 韩天峰(Rango)的博客 廖雪峰...
设计原则 快速响应:快速发布、快速响应业务变化 方便扩展:响应新业务无需推倒重来 稳定运行: 通过弹性伸缩和便捷的容灾恢复来保障稳定性(参考阿里云解决方案) 高效运维:提高运维效率、减少运维成本 演进规划 --...
这是支持 DevSecOps 任务的文档、演示文稿、视频、培训材料、工具、服务和一般领导力的集合。DevSecOps:采用 DevOps 方法实现安全。Mozilla 在持续集成中的测试驱动安全性。...让机器人发挥作用:Twitter 的安全自动化
网络架构、数据中心、运维的挑战: 技术架构的挑战: 人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,目前的技术改进不大,而数据丢失的可能性却不断增加。 如此庞大的数据量首先在存储上就会是一个非常...
它有很多特别强大的功能,比如自动化运维,你可以在几分钟内创建和部署集群并且保证你的集群宕机时间为0。它也提供基于角色的访问控制来对你的数据做保护。同时支持加密和网络隔离,当然还有认证服务。 MongoDB ...