探秘阿里(三):硅谷来的工程师

摘要: 如今“飞天”已经成为阿里各业务部门频繁提及的词汇,阿里大数据的计算能力就依赖于它。唐洪第一次听到飞天是2009年,这名硅谷工程师决定,加入一家真正有决心和肯坚持的公司去共同攀登大规模分布式计算系统的技术巅峰。

(本文为ITValue记者张宇婷“探秘阿里”系列稿件第三篇,更多关于云计算、大数据的精彩文章,请关注微信公众号:ITValue。)

探秘阿里(一):马云确定“数据时代”战略

探秘阿里(二):建立在"云"上的新商业模式

此刻,采访进行到第三个问题,我已预感到坐在对面的这位年轻小伙唐洪,是一位智商极高,颇具挑战的采访对象。采访之前得知,唐洪对待所有经手审阅的文字会精细确认到每一个标点符号,与检查代码如出一辙。

唐洪是谁?先说飞天。

如今“飞天”已经成为阿里各业务部门频繁提及的词汇。阿里大数据的计算能力依赖于飞天技术平台;双十一、三八节,每一次促销活动背后,架设在飞天之上的聚石塔平台支撑了一笔笔交易的完成;此外,余额宝、阿里金融、聚宝盆等业务顺利展开也和飞天密切相关。

唐洪第一次听到飞天是2009年,那时候他还在美国雅虎,对阿里能做成飞天表示了高度怀疑。一年后,他却在阿里云计算CEO王坚博士的“忽悠”下,离开了硅谷,加盟阿里,成为飞天的技术负责人,带领美国、杭州、北京多个团队肩负阿里云计算整个技术底层的研发至今。2013年8月,服务器规模达到五千台的飞天集群正式上线(内部叫做“5K”集群),阿里巴巴也因此而成为中国第一个独立研发拥有大规模通用计算平台的公司。在此之前,全球仅有以谷歌为首的屈指可数几家公司拥有这一技术能力。

当我把技术、管理以及关于IT趋势的问题抛给他时,唐洪会先开朗一笑,然后转一圈炯炯有神的眼睛,琅琅作答。期间穿插着各种硅谷创业公司和各种IT技术英文。这是我在阿里西溪园区采访的第三天,唐洪的回答信息量丰富、逻辑缜密,让我兴奋起来!

硅谷来的工程师

2010年底,唐洪加入阿里巴巴。最早,他在硅谷的Ask.com做底层分布式系统,这是北美第四大搜索公司。当这家公司决定逐渐放弃自主研发底层技术,而是向谷歌购买搜索结果再做上层应用定制时,唐洪去意渐生。

唐洪接下来的东家是雅虎,他在那里做大规模分布式计算系统Hadoop。“2010年的时候雅虎在Hadoop上的投入也在逐渐减少,而当时雅虎已经确定了把所有与数据相关的业务和处理都搬到Hadoop上。越来越繁重的业务压力,让程序员们为支持线上系统疲于奔命。所以我们有很多好的想法,都无法实现。”

在雅虎的经历,使唐洪开始重新思考自己的职业发展:是放弃自己执着多年的东西去一些新领域尝试新的技术挑战,比如当时在硅谷火热的社交网络Startup;亦或加入一家真正有决心和坚持的公司去共同攀登大规模分布式计算系统的技术巅峰。

在美国, 谷歌、 微软、亚马逊的分布式底层已经比较成熟了,而当时阿里云做了两年的“飞天”项目还处于起步阶段,整个系统有很大提升空间,唐洪认为这是一个机会,跟王坚博士的一通越洋电话,让他感受到阿里对做成云计算的决心。国内也有其他大型互联网公司向他伸出了橄榄枝,高层面谈,对方率先发问“你打算如何做到降低成本”的时候,唐洪意识到这个将结果当作目标的认识,显然低估了做云计算的难度。

“世界上除了谷歌、微软和亚马逊,就只有阿里了,我们找不到第五家公司能有决心长期投入在自主研发大规模分布式系统上。”

谷歌、Facebook、亚马逊与阿里云:We are doing something different

对比阿里的云计算与目前发展最成熟的北美大公司,笔者归结为勇于向优秀的先行者学习,发挥阿里集团电商优势,积累丰富的本地化服务经验。

阿里云飞天更接近谷歌的底层架构,将所有的存储放到统一体系下,利于提高资源使用和数据交换提炼的效率。亚马逊则将几个垂直服务独立并行,例如S3、EC2以及EC2对应的EBS均是各建存储系统的垂直体系。在服务上,阿里云充分借鉴亚马逊通过Web API接口,用互联网的方式向开发者提供服务。

微软则背负着已有巨量企业级客户的business目标,如何保住原有用户,使其顺利迁移到其Azure平台上,不无掣肘。

当然Facebook也是分布式计算系统的实践大家,追求实用性决定了Facebook的拿来主义风格。不用太多精力自主研发,采用MySQL、Hadoop、HBase等多套系统支撑,对于领导研发大规模分布式系统技术来驱动业务并无野心。

谈到对做云计算的决心,谷歌似乎并没有将向公众提供计算能力作为战略重心,这是因为云计算与其公司“organize the world’s information”的使命联接有限。唐洪认为,阿里云跟亚马逊一样有“believe in it”的情怀,对于产业的判断也将不局限于电商领域的视野。

AWS入华对阿里云的影响,是我此次采访最常问及的问题。诚然亚马逊的影响力必将让云计算公共服务的理念更加深入人心,起到与国内公司共同教育市场的效应。唐洪坦诚说到,短期来看,由于市场足够大,竞争不是最大的问题。亚马逊在技术、产品的成熟度上强过阿里云,阿里云在机房管理、带宽部署、运维人才储备、本地化服务体系的积累上都留给对手不小的挑战,为阿里云的产品打磨追赶提供了条件。

“将云计算在美国运维好和在中国运维好,These are two different things.”

“飞天”=阿里云技术体系

飞天是整个阿里云的核心技术部分,唐洪对她的定义是“飞天等同于整个阿里云的技术体系”,是云计算的后台。飞天由两部分组成,底层管理数据中心的资源,把数据中心里面的物理机器管理起来。上层是以Web API的方式为开发者提供服务。飞天提供的服务归根结底是计算和存储两类,表现为阿里云目前主要的产品,未来还将产生更多的服务。

提到做云计算的困难,唐洪认为,首先是人,国内有分布式系统经验的人不多。当时的团队里只有少数工程师在谷歌或微软算是做过或用过分布式系统,所以整个研发的过程是一个探索学习的过程。只有遇到实际的问题,团队才会对工程上的难题有所领悟,这个是没有办法可以走捷径的。对于其他公司已知的经验,也需要审慎对待,不能盲目照抄。有些功能是在第一天开始就要做?还是等到有了具体需求再计划?都需结合业务场景和研发力量综合考虑。

其次,唐洪认为云计算是实践科学而非理论科学。在系统设计的时候,工程师会设定相应的工作场景、硬件环境的完备性。但在实际生产环境下,各种硬件环境、参数配置,往往会打破设计时的假设,因此总是会碰到各种问题。在解决这些问题过程中积累的经验,显然不是教科书上可以学到的理论。

第三,云本身的运营和服务也是一个非常挑战的事情,从专注于解决单个集群的技术挑战,到服务好迅速增长的客户群,“我们对云计算的理解逐渐丰满”。提供7×24小时的公共服务,和支持内部应用的底层支撑系统,有很多不一样的地方,甚至可以说挑战更大。对外服务是很大的事情,需要技术和业务部门协同持续提高和运营。我们在借鉴了一些亚马逊的经验同时,不断摸索积累经验。

  

移动互联网、数据、云是铁三角:We are doing something different

早在2008年,阿里集团已经将大数据、云计算作为战略,确立了阿里云做“以数据为中心的云计算”的愿景。近期马云的内部邮件,明确“云+端”战略,打造“数据”公司,舆论或许有些意外,唐洪却认为这是水到渠成,集团过去五年多对云计算的默默坚持,走到今天公司各业务对云计算越来越Open。

大数据是原油,工业时代可以从原油中提炼出各种原油产品,参与了工业发展的诸多环节,深刻影响了许多产业的发展。而云计算则是提炼原油的炼油炉,提供数据加工的计算能力。移动互联网本身就是互联互通,产生数据并与云联接,当然云上也会产生数据反馈到移动互联网端。

未来有活力的端,一定是与云相联的!

  

Q&A

Q:为什么要把飞天平台架设在华数的机房里?

A:与华数的合作,是优势互补的选择。一方面华数在数据中心的物理建设和管理上经验更加丰富,而造房子并不是阿里云的优势。我们的核心竞争力是大规模分布式计算的技术,做好飞天是我们的优势。另外,华数也有很大一部分需要应用云计算的用户,如政务、教育、医疗、交通等领域客户的转型升级,都需要用到云计算的能力。今天,中国有许多运营效率不高的IDC数据中心,我们也希望通过这样的合作,来尝试将飞天平台部署到第三方的IDC数据中心,帮助他们提升运营效率,从而改变中国IDC产业的格局。

  

Q:如何理解云计算是互联网、移动互联网发展的基础设施?

A:首先,互联网业务本身的应用特性要求较大的规模,传统单机无法满足。

第二,互联网的业务发展不是一个可预期的平滑增长曲线,很有可能在某一个阶段,遇到爆发点,后台计算和存储的需求也很难预测,云计算的灵活弹性刚好满足了这一需求。当业务爆增时,无需重新架设硬件服务器,雇佣更多的运维人员,这无疑是更低成本更高效的解决方案。

第三,绝大多数人其实对于IT架构的持续维护、软硬件升级的挑战是相当低估的。往往系统开始架设好没问题,等到跑了几年之后才发现各种硬件更新、软件升级的IT维护是非常繁琐的工作,更不用说如何在升级过程中保持服务不中断。而云计算作为基础设施公共服务,在一开始就考虑到整体平台的升级,用户只需要在网页端做简单的指令,即可以在不中断服务的情况下,顺利的在线迁移。

第四,对于互联网创业者,云计算把机房部署、多线网络接入、DBA等等大部分IT的活都干掉了,可能需要的IT人力也省掉了,创业者可以将更多精力和资本投入到产品创新上,能帮助项目快速实现的同时降低最初的投入成本。

云计算会改变一批创业者的生存环境。美国硅谷的创业公司大部分都在云计算上发展,云计算让他们无需建立专业的IT后台团队,几台虚拟机足以满足创业初期的需求。中国的IT环境对创业者来说更加恶劣。中国不但IT人才更短缺,比如DBA;而且连合格的机房条件,网络条件都很难保证。

  

Q:开源技术已经很火热了,为什么阿里一定要做自己的“飞天”呢?

A:很多人认为开源可以让你在技术上走一些捷径,我认为需要从几个维度看这件事。首先,云计算是一个是需要有技术含金量的business。对于这类business,关系到核心竞争力的技术,决定了你与竞争对手本质上的差别,所以必须自己能掌控。我们为什么一定要做飞天,因为云计算本身有很高的技术门槛,产品的80%~90%都是技术,这个云计算后台的核心技术一定是阿里云的核心竞争力,我们要有很好的把控力。我不认为Hadoop是一个能够把控的东西。

开源可能在某些领域,比如说一些桌面级的产品,一些small scale的系统上可以满足需求,大规模的分布式系统很难用开源的方式做好。即便有分布式系统背景的人能开发出来,也需要相应的环境去做测试,而大多数人或公司是没有条件在几千台机器上去做验证的。当时很多人用雅虎版本的Hadoop,就是因为雅虎的版本是在雅虎的几万台机器上验证过了才会发布。事实上,几家做Hadoop的startup公司最多是在几百台机器上验证过,到底能否在几千台机器上跑得好,是要打一个问号的。因此用开源软件做分布式系统是不现实的。

今天基本上所有采用Hadoop的规模比较大的公司,用的都是定制版的Hadoop,比如Facebook、EBay、雅虎等。他们维护自己的版本分支,然后自己再打补丁。开源可以在一开始让你走一些捷径,但事后不断打补丁,依然要花费很大的精力,此后再想要跳到新的Hadoop版本上是非常困难的。

第三, Hadoop本身缺乏一个类似Linux社区里Linus Torvalds这样比较权威的一个人物去把控这个社区(这样的人有个名字叫做Benevolent Dictator)。Hadoop社区里,因为利益驱使,大家很难达成一致,在一个vision指导下研发。像微软、亚马逊、谷歌的云计算平台都没有用Hadoop,也都没有把自己的代码开源出去,本质上的思考跟我们是一样的,Hadoop是无法作为一个云计算底层平台基础的。另外一方面,云计算服务商真正自己研发的东西也不会开源出去,因为这是他们的核心竞争力。纵观计算机产业历史,一般都是第二、三名把代码开放出去,希望联合力量颠覆掉第一名,这是他们的战略,但没有人会把自己最核心的知识产权完全开源出去。

  

Q:平时您如何学习?

A:互联网是一个很重要的获取信息的渠道,通过它观察各个产业可以学到很多东西。如果说要读书的话,我可能会看各行业一些具体公司成长历史,比如关于谷歌的书,星巴克的书。有些新兴产业没有书可参考,比如像Tesla,我会想办法去搜集相关的资讯,并将他周边的信息关联起来,去理解这个产业会是怎么样的变化。

Q:现在阿里云已经完成了飞天这样的一个大的目标,下一个更伟大的目标是什么呢?

A:飞天谈不上“做完”,今天做到了5000台,下次可以10000台,这是一个规模上的事情。另外成本是很重要的东西,在容灾、服务的质量、性能提升上,还有很多事情要做,再做个5年、10年也是有可能的。(文/张宇婷 杭州现场报道)

本文系作者 zhangyuting@windmaker.com.cn 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

评论(25

  • 飛義崋 飛義崋 2014-05-02 07:12 via pc

    乔布斯曾说,活着就是为了改变世界。

    0
    0
    回复
  • gddg gddg 2014-04-06 07:55 via pc

    又让我看到阿里的牛逼啊!这家伙真行!!!!

    0
    0
    回复
  • 尼奥克 尼奥克 2014-03-30 07:46 via pc

    有发展前景才会更有希望!

    0
    0
    回复
  • 言斌 言斌 2014-03-29 12:02 via pc

    在核心竞争力方面,中国的人才储备是很强的!

    0
    0
    回复
  • fangzhinet fangzhinet 2014-03-26 23:19 via pc

    阿里作为巨型互联网企业,必须拜托IBM思科等企业的束缚

    0
    0
    回复
  • zero18 zero18 2014-03-24 22:09 via pc

    阿里巴巴也就那样子,也没有了以前的高大理想,只是为了圈钱而已。

    0
    0
    回复
  • cherleen在唱歌 cherleen在唱歌 2014-03-22 21:16 via pc

    要是我能去阿里巴巴工作就好了

    0
    0
    回复
  • 四无小子 四无小子 2014-03-22 16:15 via pc

    阿里的运维真心牛逼

    0
    0
    回复
  • 云端小书童 云端小书童 2014-03-22 09:20 via pc

    听起来很牛逼的样子,阿里就这一个小子?

    0
    0
    回复
  • 萧瑟武士 萧瑟武士 2014-03-21 23:04 via pc

    哎!市场资源配置的决定作用我看就是白说!不管用啊!

    0
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈