为什么阿里巴巴要做阿里云呢?( 八 )


抛弃哪个?
云梯1,依靠开源技术,更加成熟,但几年的实践证明,把它推到 5K 有明显的的技术瓶颈 。而且,最核心的技术转向开源系统,也许会让阿里巴巴在未来遇到更多技术制约;
云梯2,自研技术,难度更大,但它的架构和代码都是基于阿里自身诉求而设计的 。自主可控的 5K 一旦成功,就会打下阿里巴巴下一个十年的江山 。而一旦失败,后果也将不堪设想 。。。
此时做出任何抉择,都会彻底改变阿里巴巴的历史 。但历史又只在彼时彼刻给阿里巴巴一次机会,开弓没有回头箭 。所有人的目光都看向王坚 。
王坚说了两个字:“飞天!”
再没有一句质疑,再没有一丝埋怨 。那些曾经看好或者不看好飞天的技术大牛,这个时候撸起袖子一齐杀了进来 。
核心技术系统的正明团队,全员投入 5K 的攻坚战;负责应用集测测试的许呙兢,在得知调度系统的日志自动收集和分析工具缺口严重,二话没说主动请缨;褚霸、多隆、长仁这些分散在各部门的的技术牛人也都冲进来了 。各路神仙在这几个月亲近得不分彼此 。
褚霸回忆当时的场景:“早上9点进入项目,11点我们就开始解BUG 。”
就连在电梯里,都会人问阿里云的同事“最近怎么样?需不需要帮忙?”他们来自一些兄弟团队,有负责安全的,有负责集成测试的 。
阿里云自己的同事更是全力冲刺 。
新员工刚刚入职,就立刻被派往“战场” 。本来是北京分公司的员工,入职之后直接拉到杭州帮忙 5K 项目 。都加入公司两个月了,还不知道自己北京的工位在哪里 。
而一位叫做李泉的同事,连续几个礼拜连轴转,半夜两三点被叫起来解决问题,早晨八点又出现在工位上 。被同事封为“李铁人” 。
在最后的测试阶段,杭州和北京两个办公室的同事电话24小时通着,人可以轮班休息,电话不能掉线,那部用来接听的电话都烧得滚烫 。
就这样,一行行代码累积起来,在赛博世界的疆土上一眼望不到边界 。他们交错重叠,像从白垩纪开始慢慢累积的地层 。直到这片大陆,终于浮出海面 。
2013年6月底,5K进入了最后的稳定性测试 。
怎么测试系统的问题定性呢?之前带领“八十勇士”围攻后羿的振飞,提出了一个真·钢铁直男的测试办法:拔电源 。
他的理由是:“如果这种突然暴力断电都能撑得住,阿里云还有什么不稳定的呢?”
拉电的同学反复问了三遍:拉吗?拉吗?拉吗?最后才颤抖着双手拉下了电源 。
这一刻,时间停止了,只有机器重新启动的声音 。
四个小时以后,当系统完全恢复运行的时候,很多阿里云同事的背后,已经被冷汗打湿了 。经过系统自检,一切正常 。虽然还有十台服务器光荣就义 。但是,数据毫发无损!
这一刻,在场见证的人都明白:成了 。
所有的技术路线之争,所有的进退成败之辩,所有的隐忍委屈不甘,所有的怀疑嘲讽忧虑,就在此时此刻突然画上句号 。
盛夏的杭州,阿里巴巴热血翻涌,阿里云的“疯子”们却心如止水 。
(8)阿里云这群疯子
阿里云,成为了中国第一家拥有完整云计算能力的企业 。
2015年,在计算界的奥运会 Sort Benchmark 中,阿里云计算100TB数据排序只用了不到7分钟,把 ApacheSpark 之前创造的23分钟世界纪录一下子缩短了一多半 。这说明,中国人研发的云计算系统不仅成功了,而且不比世界上任何现存的云计算系统差 。
成功登顶的“云梯2”,后来更名为 ODPS,“加冕”成为了阿里巴巴各项业务通用的大数据计算平台 。