【钛坦白】IBM毛东晖:一朵好云是如何炼成的?

摘要: 一朵好云的建设就像打造一件工程作品,一开始就要设计好图纸,有了图纸可以选择自己来或者直接购买合适的云服务。

钛媒体旗下的钛坦白微信课第26期,请来了8位对“企业上云”有深刻理解的钛客进行分享。本文来自IBM大中华区混合云建设产品线业务总经理毛东晖在钛坦白的分享。

毛东晖在IT行业拥有18年从业经验,自2014年起,参与并领导了IBM在中国实施的几乎所有重大的云计算项目,自2015年起负责IBM 混合云解决方案在中国的落地与发展。

云计算市场在这几年可以说是井喷式增长,各种围绕云的新技术、新公司如雨后春笋般冒头,市场不断出现各种不同的声音和探讨,每周都有各种新闻层出不穷,有新产品发布,有公司拿到投资,当然也有系统大规模宕机等秒删新闻出现。

客户也开始逐步从被动走向了前台,若干年前客户说做一个项目要有云只是追求时髦,现在更多的客户从不同的角度已经开始了践行和尝试,有业务驱动的,有公司转型的,有实验测试的,有大规模推广的。众多的机会和想法出现是一个好的事情,给不同层级的公司都提供了展示的机会和发出声音的舞台,这种芸芸众生已经彻底改变了过去IOE等大型企业级外企市场所形成的稳定的平衡。但是打破这种平衡后,新的平衡出现了吗?其实并没有,因为大家都在不断摸索和尝试。

本人也在这个浪潮中观察、支持到亲自参与。我更想分享一下在这波云的大潮来临之时,或者说变革的机遇到来之时,什么样的趋势和潮流是适应客户的,是可以真正和他们的业务融合在一起再次形成稳定的。传统企业型客户的IT 毕竟不是实验室,他们不可能拥有互联网行业的人力资源和不断变化的业务前端,也不可能拥有运营商运行的广大基础设施,对于他们来讲,构造一朵云的核心在于和业务整合,可以从创新、交付体验、成本、稳定、支持未来转型等方面提供支持。这个过程不仅仅对于客户是一种历练,对于提供服务的服务商更是一种考验,就像炼钢一样,经过了一步步的过程和工艺才能成为合格的产品。当然我本人的职位和工作范围更多的让我的视角关注客户私有云和行业云的建设与运维,即如何帮助客户炼成一朵好云。

你的组织和业务ready 要上云了吗?

我们从私有云建设说起。在几年前如果我们和客户交流云计算,客户更多的关注是虚拟化,当时的主要工作就让客户接受虚拟化,所以只要能够虚拟化所有项目都可以冠以“云”的头衔。随着这几年大型公有云的成熟落地体验和云技术的普及,客户已经慢慢的接受了云不仅仅是虚拟化,云是面向服务和交付的一个体系,这里既包含了最终用户也就是业务部门的自助服务获取,也包括从网络连接到服务质量保证的一体化运维,甚至在某些转型客户要求的行业云中还包括运营到销售管理的业务模式。

这种真正的云对于客户来讲投资相当巨大,所以首先要判断是否需要做一个真正的私有云(行业云),还是直接购买公有云或者别人的行业云服务。判断的标准一方面从定制性考虑,一方面从安全性角度考虑。公有云服务就像在食堂吃饭,饭的种类虽然很多但是不见得可口和适合自己,自己某些企业特性的需求对基础架构或者中间层有很多要求,那只能自己搭建云的服务。当然追求极致数据安全的公司更为需要。

另外一个方面就是客户的应用是否需要上云,从逻辑的角度讲,客户的应用一般会分为不可云化应用、可云化应用、适合云化应用和原生云应用。这几种类别的判断标准不仅仅是技术上的虚拟化、分布式存储、融合计算,还包括了应用的弹性需求、业务交付需求、变化需求,以及对外围API 和其他应用的交互需求等。对于构建私有云的客户而言,弹性的资源池也就是底层平台不可能是随意部署和加载的,资源池是经过设计采购、租赁等一定周期才可以部署到位的,所以构建私有云的重要目的是保证自己建设的池子的最佳投入产出比,也就是运行的应用和负载可以最大化合理的利用现有资源池资源,保证一定的冗余,在大量业务下线后,能够对资源池做适度的下电关机实现适度的缩减。

从应用的角度需要看不同类别应用完全可以采用不同的手段来实现,当然成本和技术可能都会大大的不同。原生云应用一般都是企业目前正在尝试的新业务产品和方向,这种类型应用如果在数据信息安全允许的范围内,最适合放到公有云或者通过混合云来实现。当然更为广泛的适合云化应用和可云化应用才是目前企业的主流,针对这种应用类型,在考虑构建云的时候就需要应用开发部门和团队的介入,仅仅提供虚拟机、存储服务器的纯粹的IAAS或者虚拟化云平台并不能改善业务的交付模式,所以从交付模式入手,能否将应用的加载完全交给业务部门来选择,让他们根据业务的变换来选择启动或者关闭从应用到底层基础设施的服务,这是向云化部门迈向的重大一步。这个过程需要应用部门和基础架构部门配合在一起,共同制定弹性方案,能够确保弹的出去收的回来。这个过程就叫做服务的编排。

如何平稳地实现云化?

从我们的经验来看要想应用平稳地实现云化,有两大工作要做,第一步叫做搭架子,第二步叫做上云。当然我们要放到一个全生命周期的角度去构造,只有不忘初心我们才知道我们无论走多远做多少尝试都可以走到终点。

下面的图主要向大家展示了云平台建设的过程以及所需要的服务:

现在先说说搭架子,搭架子就是云计算的规划和评估,设计整个云服务的交付模式,这其中包括需要考虑:

  1. 应用云化的路线图。因为建设云平台,应用改造、迁移、测试、扩容等不会一蹴而就,一定是通过一定的周期来实现的;
  2. 对资源和工具要求的规范化。如果在企业中都是标准的当然完全可以使用公有云甚至混合云,但是不同的企业由于不同的应用发展,因为时间的日积月累导致部署架构和应用所使用的中间件数据库等五花八门,七国八制,这在建设云平台的过程中就需要考虑准备整合版本逐步统一,这样才能为后面的服务编排带来可能;
  3. 运维流程及SLA的规范化。云是一个容器,将多种应用架构于其中,通过服务交付自动化和自助的交给了业务最终部门和用户,交付什么,交付的流程和规范特别是SLA 要在一开始就设计出来,因为这个将直接影响后面的技术体系布局和运维管理服务的成本加载;
  4. 云环境下持续交付的流程。这中间要考虑到应用的扩容弹性及业务连续性等一系列问题。做到了这些步骤,建设一个完善的云体系至少不会很盲从和缺乏方向;
  5. 服务的编排。这是从应用角度看待的,是将应用组合根据需要通过自动的流程启动或者关闭,对于基础架构部分完全融入到应用的自动化运作之中。服务编排的设计非常重要,需要了解应用和懂得基础架构甚至于后期建设云管理平台的人员一起合作,这个过程是将项目制的应用软件和底层架构整合的标准化和模板化,最终实现所谓的workflow。通过这部分设计就可以知道服务所需要编排哪些自动化的模板和对底层架构所需要的基础资源以及相关的技术体系;
  6. 资源池设计。说到这部分不得不谈谈OpenStack, OpenStack 算是一个非常好的工具可以帮助客户把整个基础架构底层穿连起来包括计算、存储、网络,不断撬动这 IOE、VMware 厂家所固守的商业产品阵地,客户完全可以通过OpenStack 展开一段开源的云计算之旅,但是既然是开源产品和体系就一定具备开源产品的特点和掣肘,缺乏商业产品的稳定成熟、缺乏明确的产品演进路线,缺乏配套的服务都是客户需要面对的问题,特别是稳定性及运维等。从目前的经验看,OpenStack 更像是乐高玩具,不同的技术人员在客户处部署和实施的方式可能都不一样,所以软件和硬件的耦合性就变的非常重要。客户在设计资源池的时候什么样的硬件配置,网络、存储服务器加上软件可能会产生数量巨大的不同排列组合,由于硬件的一些耦合性和特点,遇到问题和故障就变的非常频繁,客户无法当小白鼠反复试验,所以Reference architecture 就变的非常重要了,也就是通过试验和项目已经总结了哪些品牌的配置的机器组合在一起时是可以满足要求的。当然除了机器配置外,标准化的设计也为客户在实施项目中提供了指导,大大降低了实施的时间。客户只需要通过POC 来验证功能的合理性。

有了体系和架子,基本上如何做一个云就算想清楚了,具体怎么做有很多种方式了,可以自己DIY 动手从头做,也可以提出需求去购买管理私有云和托管私有云。当然成本与交付时间以及后期的运维的ROI 是可以作为评判的标准的。当然有些人觉得这个好复杂,我就找个OpenStack 厂家搭个池子或者用VMware,就可以有虚机、存储、网络提供了,我有了基础的IaaS 我已经云了,这么做当然可以,但是做多大规模,做出来仅仅供应虚机是不是业务部门要的,如何管理与交付,后续项目还有没有成长性都无法回避。所以做不做云就像前面说的这是业务模式的转变,还有组织也要随之变化,例如增加一些角色如服务交付专员,编排设计架构师等。

云管理平台的重要性

云管理平台Cloud Management Platform 实际上是一个非常重要的平台,这个不光在Gartner上面有单独的魔力象限,在我们建设全生命期上也可以看到这是实际是整个云建设的一个重要的落脚点。当然,Gartner的魔力象限,其实在国内目前云管理平台,客户更倾向于本地化与定制化,这是因为云管理平台是客户管理灵魂的体现,如何和自身管理相结合,大量的客户化不可避免,所以云管理平台的竞争是最激烈的。

云管理平台可以说从发展的历史看也非常悠久了,早在前几年,当客户发现仅仅通过VCenter 已经无法实现面向客户端的自动化交付和应对交付流程要求的时候云管理平台就应用而生了。现在的云管理平台已经是一个横纵的汇合点一个接入的核心。向下兼容和管理基础架构系统,包括多种资源池,VMware、KVM、Power等等,KVM 体系资源池因为有了OpenStack 所以基本上是调用OpenStack 实现,VMware则是VCenter,Power 是PowerVC,通过和底层的管理软件互动,云管理平台可以看到不同的资源池,同时更重要的是在资源池之上构建服务层,也就是将不同的资源组织成服务通过编排交付给客户。

向上,云管理平台和PaaS层应用层整合,目前的可云化应用和适合云化应用多数使用传统中间件和数据库,所以云管理平台主要将在上部分内容讲的云化的软件中间件模板和底层的虚机模板,通过服务编排整合,最后通过服务的方式直接交付给客户应用系统而不仅仅是底层资源,这部分是目前云管理平台发展的热门,特别是针对企业客户。当然在今天对于应用的承接也还有Docker的模式,所以云管理平台加载Docker服务就可以为客户提供原生云应用的部署环境和能力。

云管理平台的价值要完全实现还需要横向左右的配合,也就是监控运维和混合云接口。过去所建立的云平台一般多带有实验性质,很多管理流程特别是ITIL 并没有加载其中,目前建设的云管理平台,大家一方面希望提供的监控过程是一体化的,能够帮助自身了解基础资源池到虚机甚至于到中间件的各种性能和状态,也希望提供编排的规则可以实现自动的启动和关闭从而彻底实现云的自动化弹性价值,这就需要云管理和监控系统进行完善的整合或者提供部分的功能。对于混合云来说,虽然部署方式、数据传输、安全依然是需要面对和思考的问题,但是通过云管理平台可以管理远端公有云自身购买的环境,实现一体化的管理已经是不少云管理平台逐步实现的功能,下一步必然是跨云的部署监控以及计费等。所以作为云最重要的组件之一,云管理平台对服务业务交互和交付起到非常大的作用,这可不是仅仅一个OpenStack 的汉化Horizon 可以实现的。

当然做云管理平台这部分的软件厂家也比较多,因为不会影响生产的底层,所以只是存在客户化实施能力和好用不好用的问题。当然别小看这个客户化和好用不好用,其中一个点叫做用户的易用性设计,举个例子,因为OpenStack 本身的设计有一个问题就是他的用户群是虚拟化的管理人员,而云管理平台是面向真正用户而设计的软件系统。 这个跟 OpenStack 是两个设计思路也是两个方向。

运维管理的变化

运维管理在客户进入云的世界后也发生了翻天覆地的变化,过去客户业务系统相对隔离,基本都保持HA 等高可用形式,稳定的主机、网络、存储,通过API 和端口可以很好的自动发现和监控。现在的云管理平台更多的采用的是SDE 的架构在这种架构之下,硬件相对标准化和简化,如X86服务器,更像硬件产品家电化,软件在操控硬件产品的过程中变的更加重要起来,从支持虚拟机的核心到存储到网络,都靠软件来实现,这必然让客户对下要和操作系统,甚至内核参数打交道,横向要兼顾网络、存储、计算的整体健康状况,比如我们碰到过得一个案例在一个项目中遇到虚拟机丢包,长连接会卡中,OPENSTACK 中网卡,追踪到Redhat自带的的Intel网卡驱动版本过低的问题,最后升级版本解决问题。这些还不算,还要考虑到和硬件的匹配以及兼容度的问题,我们也在项目中遇到反复宕机最后锁定是硬件微码等问题的案例。

当然有的人会说我们构造的云平台就应该是HA高可用的,是的,在云平台的架构设计以及功能的角度这是非常重要的,我们必须要在设计时考虑各个层级的高可用,从存储、到OPENSTACK到云管理平台,各个级别的高可用在通过监控软件穿连起来就实现了整个平台的稳定。而且在实际生产过程中VM支持在线迁移很重要。比如某资源池支持全部物理机微码升级,但是已经有很多生产的关键业务在运行,为了达到不影响业务的物理机升级,在云平台部分,由于支持高可用,停止掉一台物理机的服务不会影响云平台的运行,所以可以迭代升级。在计算节点,由于支持VM在线迁移,所以也可以迭代升级。当然这些底层运维场景只是一部分,还有一部分是业务和中间件的整合,我们也有碰到若干虚拟机只有一台反复丢包的情况,最后排查就是应用的问题。

所以云服务是一个大容器,这个大容器不能说是高压锅吧,但是压力确实不小,应用于今天的云运维服务,整个工具链系统也在不断演进,目前我们云运维团队常使用的工具就有开源和商用的两种,其中开源的有saltstack,nagios,elk,lpar2rrd。还有itm,powershellcli,最后还得自己写脚本。如果客户要自己运行好云,一方面要希望云管理平台和这些监控工具集合,另外一方面也要自己投入时间学习和研究。云运维和传统运维综合相比,1.云运维不仅仅关注硬件和物理层,而更关注整体系统和应用层,2.云运维更需要软件及系统的自动化部署,3 通过生命周期形式来管理应用程序,如自动软件更新。4 负载均和和容量自动扩展保持最佳的私有云投入产出比。5.降低运维成本。

所以如果从目前构造的项目来看,以VMware为底层打造的云平台,客户更多的关心应用层的问题。以OPENSTACK 开源打造的云平台,客户要更多的依赖服务厂家,要不就自己人和投入资源整合工具链逐步实现运维,目前更潮流的模式是给客户提供管理云服务。管理云服务就是管家型云服务,专业的人干专业的事情。管家云服务通过提供专业的管理运维工具或者管理服务,帮助客户维护和运营一个稳定OpenStack 基础架构。这种业务可以将客户彻底解放,而且专业的团队有专业的知识库和人员可以分享。当然这种业务模式所牺牲的就是完全的客户化,因为客户的硬件体系甚至软件,特别是OpenStack 必须要运维厂家实施部署方能够进行友好的管理,而且管理服务厂家必须通过远程监控运维以实现一定的服务级别和响应。

如何构建一朵安全的云?

云计算通过资源池的模式将数据进行集中管控,比传统分布在大量终端上的数据更安全。由于数据的集中,使得安全审计、安全评估、安全运维等行为更加简单易行,同时更容易实现系统容错、高可用性和冗余及灾备恢复,但是传统的IT安全威胁种类依然存在,因此传统的安全防护方案依然可以发挥一定的作用。

云平台的安全保障可以分为管理和技术两个层面:在技术方面,需要按照分层的思想,基于安全域的划分,从物理基础设施、虚拟化层、网络、系统、应用、数据等层面进行综合防护;在管理方面,应对云平台、云服务、云数据的整个生命周期、安全事件、运行维护和监测、度量和评价进行管理。考虑云计算所带来的变化、风险,从保障系统整体安全出发,构建一朵安全的云,除了需要考虑基础设施安全、虚拟化层安全、虚拟网络边界安全、主机安全、应用安全、数据保密和防泄露之外,还要关注安全运维管理、法律和合规等方面的需求。

目前我们所实施的项目多数让客户在传统网络和安全防护的层面,在加入多应用和虚拟化层的安全控制,因为现在大量使用开源软件,特别是应用软件,漏洞扫描补丁管理一定要在业务上线之前,而且在云计算中的物理金属逻辑在上线加入云平台后也需要同步安装防护软件,以避免其在互联网端裸奔。

总体看云计算的安全问题是无处不在而且严峻的,最好的方法就是安全设备可以如同存储设备一样,形成池化的资源池,在用户申请云服务器时,与计算资源、存储资源一起按需分配给用户。目前,在公有云市场,已经有云服务提供商将安全作为基本属性交付给用户,在用户购买云计算服务时,用户得到的是安全的ECS、CDN、RDS和OSS。相信不久之后,各种池化的安全资源也会在私有云环境中得到运用,到时候安全也将成为搭建云服务的众多乐高积木中的一块,任你选择和支配,它只局限于你的保障需求和想象力。

购买一朵云的核心是购买服务

一朵好云建设就像打造一件工程作品,一开始就要设计好图纸,有了图纸可以选择自己来或者直接购买合适的云服务,因为目前市场上竞争激烈,也没有什么明确的规范,所以客户选择是非常困难的。

我个人的建议是把云管理和底层分开来看。云管理可以一步一步通过客户化和项目最终达到效果,但是底层呢一旦选择再次更换就会变的非常消耗时间和成本。同时底层和运维的匹配度也是非常重要,一个无法管理和不便于监控管理的底层无异于是一个彻底的黑洞。所以可以提供良好管理甚至于管理工具的底层将变得很有价值。

谈完这些最后其实考察的就是团队了,一个厂家的云建设团队其实也很难做到全能,因为技能水平,客户现场复杂度,产品成熟度等各种差异化条件,你很难让一个原来做木工的还要能做好瓦工,当然OpenStack 的实施服务要求,已经在往这个方向发展了,要能够综合解决问题,同时服务和支持的体系也很重要,其实云化的前期发生问题和出现问题非常正常,你用一堆开放相对廉价的软件和硬件堆出了一个商业用的高可用环境,无论从压力和能力角度,故障和问题都是常态,所以认识到这个问题,及早构建支持服务团队或者购买相关服务可以让客户的使用感受大幅度提升。个人认为SDE 所带来的变化将是软件更加复杂和开放,商业模式也将逐步过渡到以服务为主,通过个别版本想一统天下的时代在慢慢的消亡,所以购买一朵云无论是公有云还是私有云最核心的是购买的服务,最终用户购买使用了服务,运营方购买了厂家的服务,所以管理型私有云在开源开放体系的架构中将会全面的发展。

关于改装一辆滑板车的故事

最后再给大家讲个小故事。今年这个端午节最大的收获和放松就是自己DIY动手改装了一辆滑板车。家人送了我一辆迪卡侬的自滑行Town 9滑板车,我用了还没一周就总想要是来个电的多好呀,自打这个念头在我的脑海中生根发芽我就像着了魔一样天天想天天想。神一样的淘宝满足了我的愿望,真有改装套包,我也百度到了各种改装介绍和功率,在货比八家,遍历了各种攻略后我果断拍下。

整个安装和改造的程序过程非常痛苦。自己改装就像客户用开源做云计算,网上攻略都是半截货,各种坑得自己摸索、自己填,各种不匹配要自己想办法,所有美图都是摆拍,关键是心里要承担巨大可能失败了就什么都没有的风险。在经历了开槽、扩孔、换轮、装线、安灯、安控制器、装电池后,终于搞定了,家人说还不如直接买电动的,是呀,电动的比我便宜的有很多,但是最让人开心和有成就的还得自己动手干。

这也是为什么客户放着商用的不买一定要开源,因为可控,自己有机会练成专家,不过说实话,后面保修啥的也要靠自己了。一个改装满足了我这个工科男小小的动手欲,也悟出了很多工作中的道理。但是你们知道我用了几个月以后的情况吗……(本文首发钛媒体,根据IBM大中华区混合云建设产品线业务总经理毛东晖在钛坦白上的分享整理,编辑/佳音)

………………………………………………

钛坦白第26期八个小时的分享已经全部结束,干货会陆续发布在钛媒体上:http://www.tmtpost.com/tag/1508094

报名入群:在微信公号“钛媒体”(taimeiti),发送“钛坦白”

与钛坦白合作,推荐钛客:请与钛坦白负责人佳音联系,邮箱jiayinge@tmtpost.com

本文系作者 MaoDonghui 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

MaoDonghui
MaoDonghui

评论(1

  • 姜子牙垂钓太平洋 姜子牙垂钓太平洋 2016-11-11 19:42 via pc

    云,看起了是那么地高大上,就如同20年前的 “ 中移动 ”。
    今天,BAT 们利用中移动的管道源源不断的获利;
    明天,XYZ们也一定会踩在云端捞钱。
    如果你无力造云,那就努力练就腾云驾物!

    0
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈