阿里巴巴花了7年造出的阿里云,靠什么实现“7x24小时在线”?

摘要: 阿里云就是这样一个永远在线的软硬一体的虚拟计算机,这个虚拟计算机庞大到了每个人都生活在其中却感觉不到它的存在。

云栖大会上放出的观点成为这几日行业人士乃至社交网络上的热议话题,包括马云的主题演讲。马云在这场主题演讲中,只字未提“阿里云”,但这并不说明阿里云不重要,而是在某种意义上来讲,阿里云“从0到1”的阶段已经完成了。

在10月13日杭州云栖大会开幕当天,马云发表了就上一财年致股东信,信中提及,“阿里云承载了中国35%的网站并为之提供云计算和大数据的服务,而截至2016年3月31日的阿里财报显示阿里云拥有超过230万用户,其中云计算付费用户达50万。”

从2009年2月写下阿里云的第一段代码开始,阿里云上上下下的负责人们就一直在试图解释阿里云到底是什么。成立七年的阿里云的业务逻辑是什么?现任阿里云首席架构师唐洪、阿里云资深技术总监李津通过密密麻麻的图表清晰地做出了解析。

三句话道破阿里云的天机

阿里云的核心人物王坚最近出版了一本书《在线》。王坚自2008年9月加入阿里任阿里巴巴集团任首席架构师,2009年9月创建阿里云计算公司并任总裁,现任阿里巴巴集团技术委员会主席。

王坚和其团队自主研发的大规模分布式计算系统“飞天”,是阿里云的核心,建立了互联网规模的通用计算平台,完成了云计算公共服务的商业化。

阿里巴巴集团技术委员会主席王坚

《在线》一书中,王坚对过去8年自主技术创新道路进行了反思与总结。摘出书中三句话,就能从根本上说清楚阿里云的本质以及过去与未来:

1、从某种意义上来说,“飞天”就是一个操作系统,操作系统最重要的功能就是资源管理。

“飞天”的底层是数据中心,有成千上万台通用服务器,每台服务器都有CPU(中央处理器)、内存、存储,相互之间用以太网进行连接,这套系统简单说就是把所有资源抽象成一台计算机,并通过互联网提供计算服务。

2、这样的底层架构与亚马逊差别很大。

亚马逊对外提供的每一个服务都会直接对应一个或多个物理集群,比如A集群对于S3(亚马逊云存储服务),B集群对于EC2(亚马逊云弹性计算服务),它的功能和系统计算是垂直的。而阿里云所有的服务对应的都是同一个系统内核、同一套分布式文件系统。也就是说,无论对象存储、弹性计算、邮件、搜索等,都共用同一个底层。除阿里云外,世界上只有谷歌能够做到这一点。

3、“飞天”系统是一个规模很大的有机整体。

规模很大带来的最大挑战在于这台“超级计算机”每天都可能发生故障——硬盘会坏、风扇会坏、内存会坏,“可能自己买一台笔记本电脑用了5年之后依旧完好无损,但是在成千上万台服务器的‘飞天’集群里面,硬件故障时时刻刻都会发生。”

再进一步精炼总结的话,如果把全世界的计算资源看成是一台庞大的虚拟计算机的话,阿里云的核心“飞天”就是这台虚拟计算机的操作系统,而“内存”、“硬盘”、“显卡”等都是由巨大的通用服务器集群组成。阿里云除了核心“飞天”操作系统外,还向上提供云服务版本的中间件、安全、文件系统、数据库以及面向应用的通用API等高级服务。用户使用阿里云的方法却很简单,只需要通用浏览器或通用API简单调用即可。

除了谷歌外,微软云也是同样的思路。

阿里云就是这样一个永远“在线”的软硬一体的虚拟计算机,这个虚拟计算机庞大到了每个人都生活在其中却感觉不到它的存在——当然,这不仅仅是阿里云的终极梦想,亚马逊云、谷歌云、微软云三大巨头都在朝同一个方向实践。

描述下阿里云的规模:百万级服务器、单集群1万台的“有机体”

既然阿里云“飞天”系统是一个规模很大的有机整体,这个有机体目前到底有多大?综合今年杭州的“云栖大会”上阿里云提供的各种资料,可以初步描绘出这个有机体的规模:

百万台级服务器的连接能力,单集群可达1万台的规模,10万个进程达毫秒级响应;十亿级文件数,EB级别存储空间;全球15个数据中心区域;“飞天”全球用户数达到230万,遍布全球200多个国家和地区;提供面向22个行业的108个解决方案。

简单的对比,亚马逊云与微软云目前都是百万台服务器级别的规模,亚马逊云在全球有17个数据中心区域、35个可用区域(AZ),微软云有34个数据中心区域,而谷歌虽然自身达千万台服务器级别但只有一小部分对外提供公有云服务。

按阿里云资深技术总监李津在本届杭州云栖大会上的说法,从规模来看,阿里云与亚马逊云已经没有多大的差距。

飞天系统与PC系统的逻辑对比

因此,在过去的7年时间里,阿里云一直在发布这个庞大体系的不同组件,并且在把不同的组件连接起来形成一个有机体。

众所周知,传统操作系统在升级硬件的时候需要重启系统,而阿里云在升级飞天的时候却不能“重启”——这个很好理解,阿里云已经与社会经济息息相连,必须7*24小时不间断在线。

另外一个问题是:这样的一个有“生命”的有机是怎么自我调节、自我平衡、部分组织自我重生的呢?

根据唐洪的介绍,阿里云的生命机理就是阿里云的自动化运维系统“天基”。在“天基”看来,系统里每一台机器都无时无刻地处在部署、升级、迁移以及各个状态的转换中,“天基”在整个系统运行中精准地控制每个进程、每个组件的状态,从而控制每个系统的状态。

“天基”采用了一个面向恢复的计算模型。每台由“天基”管理的机器上会定期向“天基”发送自己的状态,而“天基”还维护一个系统预期的状态,“天基”会定期地比较预期状态和当前状态,根据其差别来制定出详细的执行计划并下发到“天基”的执行AGENT机器上,通过这样的过程迭代使得整个系统的状态逐步逼近到预期状态。

而在离线应用与在线应用的系统资源混合管理方面,阿里云会将离线应用和在线应用放在同一个集群上,当在线应用比较空闲时就将资源分配调度离线应用,当在线应用的负载比较高时就将资源从离线应用“抢占”过来。这样既可以保证整个系统资源的利用率,也可以确保在线服务的质量。通过这两个策略,可以将集群中日常资源的使用率从5%提升至54%、将集群峰值的利用率从22%提升至64%。

云的“生命机制”可以概括为从无到有、从小到大。为了保证用户业务的不间断以及阿里云的组织更新,阿里云曾经创造了全球首例整体机房带业务热搬迁,也就是说,“整个机房带着用户不停顿的业务搬迁到新址,形象的说法就是开着汽车换轮子、开着飞机换引擎。”

然而,一旦阿里云的所有必要组件全部都对外发布出来而且已经彼此互连成合体的话,这个有机整体就可以脱离人工的管理,而由机器自治。李津介绍说,目前他的团队已经在把深度学习等人工智能算法用于阿里云基础设施的自我管理,由机器自己探测并自动修复故障。

与社会化应用协同进化的逻辑

回顾阿里云7年的发展,还有一个重要的逻辑:不断用真实世界的应用来刺激阿里云的生长。

阿里云的早期阶段,由于大量用户把自己的应用架设到阿里云上,但早期的阿里云因为经常宕机而导致一片骂声,可以说阿里云就是被“炮轰”长大的,甚至有一个博客网站专门记录阿里云的各种问题。

在《在线》这本书中,其实收录了不少“炮轰”阿里云的报道,包括阿里集团内部也一度因为是否要把核心应用搬到阿里云上而爆发激烈争吵。

到今天,尽管阿里云依然会出现问题,但出现问题的几率已经大幅降低。可以说明这一点的就是阿里巴巴正在把自己内部的核心应用、甚至每年的「双11」这样的高难度挑战,都逐渐迁移到了阿里云上。

当一个企业的云服务达到一定规模,产生了巨大的规模经济效益后,对于其使用者来说,最直接的好处就是获得了不小的降价空间。阿里巴巴集团2016财报显示,过去一年里阿里云曾17次下调云服务的价格。

2016杭州云栖大会介绍了杭州城市大脑项目

国内开源界,阿里巴巴也是最大贡献者之一。在开源方面,本次杭州云栖大会上 AliSQL 正式开放了源代码的下载。AliSQL是阿里巴巴基于开源数据库MySQL官方版本的一个分支,应用于阿里巴巴集团业务以及阿里云数据库服务,目前由阿里云数据库团队维护。阿里云在AliSQL上进行了300多个改进,包括针对电商秒杀、物联网大数据压缩、金融数据安全等场景提供个性化解决方案。

随着阿里云在技术上的成熟,现有的阿里内部应用以及社会上的应用已经不能满足进一步“刺激”阿里云的未来成长的作用,如何通过社会化力量来反哺云服务呢?

阿里巴巴在杭州立项的“城市大脑”是其中一个尝试。“城市大脑”,主要是把人工智能用于城市治理,成为整个城市的人工智能中枢,让城市能够自我调节、与人类更好的互动,交通道路优化与管理是第一个挑战的课题。

“城市大脑”由五大系统组成——超大规模计算平台、数据采集系统、数据交换中心、开放算法平台、数据应用平台;阿里云的人工智能引擎ET还为“城市大脑”其它四大系统提供人工智能内核。

举个例子来说,杭州城区内5万多路视频摄像头都将成为这个“城市大脑”的数据来源。从2016年3月开始,杭州交警、城管、建委等11个政府部门和西湖区,以及阿里巴巴、华三通信、富士康等13家企业的上百名人员,聚集在云栖小镇进行研发。

如此大规模的研发目前取得了一定成果。据悉,9月在杭州萧山区部分路段的初步试验中,城市大脑通过智能调节红绿灯,车辆通行速度最高提升了11%。

除了用人工智能优化和管理城市外,阿里云还在着力解决全社会物流挑战。阿里云和菜鸟网络合作推出的中国首个物流云平台“菜鸟物流云”就是在这方面的尝试。根据预测,未来的几年内中国日均包裹量很快突破1个亿,无法再依靠传统的人力劳动模式去送递包括,必须使用物流云来保证物流网络高效运转。因此,菜鸟网络 CTO 王文彬对媒体表示,未来物流行业的竞争力已经不是单纯依靠规模和价格的竞争了,技术竞争将成为关键。

目前阿里云平台上已经出现了单个ISV的年营收过千万人民币水平,李津则希望“能在不远的将来出现过亿元营收水平的软件企业”。而现在,正是企业级软件与服务创业的好机会,由于阿里云的成熟和230万使用者,再加上淘宝与天猫上数以亿计的活跃商户,任何SaaS软件都有机会触达这些潜在小企业用户,因此在未来很有可能出现中国自己的企业级软件巨头。(本文首发钛媒体,记者/吴宁川)

………………………………

钛坦白第26期:打通企业用户“上云”这一关

与钛坦白合作,推荐钛客:请与钛坦白负责人佳音联系,邮箱jiayinge@tmtpost.com

报名入群听课:在微信公号“钛媒体”(taimeiti),发送“钛坦白”

本文系钛媒体原创,转载请注明出处、作者和本文链接
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

吴宁川
吴宁川

专注于云计算、大数据和移动计算时代的商业变革。

评论(15

  • 青rose蛙44808 青rose蛙44808 2016-10-20 10:24 via weibo

    留着看

    0
    0
    回复
  • 山有木兮_Ly 山有木兮_Ly 2016-10-20 10:24 via weibo

    你帅你说了算嘻嘻嘻嘻[心] #霍建华# #BOSSMANOFTODAY#

    0
    0
    回复
  • 潇澎 潇澎 2016-10-18 16:43 via android

    阿里云如何运作

    0
    0
    回复
  • 367 367 2016-10-18 07:00 via android

    从0到1,我不信

    0
    0
    回复
  • Darren13 Darren13 2016-10-18 06:40 via iphone

    哈哈还不错

    1
    0
    回复
  • Superbonic Superbonic 2016-10-18 00:50 via android

    是时候给阿里开垄断罚单了。

    0
    0
    回复
  • Superbonic Superbonic 2016-10-18 00:49 via android

    哈哈哈,希望别加入智能,搞到最后失控让世界来联合收拾这个烂摊子,聪明反被聪明误。

    0
    0
    回复
  • 笨之鸟-铭寒 笨之鸟-铭寒 2016-10-17 23:58 via android

    比较厉害

    1
    0
    回复
  • 远方的家 远方的家 2016-10-17 23:38 via android

    我们公司的ERP就是阿里云技术支持

    0
    0
    回复
  • Superbonic Superbonic 2016-10-17 20:40 via android

    最后又是笑话一个。

    0
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈