【钛坦白】金山云刘涛:如何利用VPC实现企业现有架构到云架构的过渡?

在没有VPC之前,传统的云网络是扁平网络,云主机IP地址是由云服务商固定的分配的,其分布也经常是不连续的。同时,会依赖比较大的二层网络,这里面会在环路控制、广播风暴、多路径技术、热迁移范围等多个方面存在潜在的技术风险。

钛媒体旗下的钛坦白微信课第26期,请来了8位对“企业上云”有深刻理解的钛客进行分享。本文根据金山云网络与安全部技术总监刘涛的分享整理。

刘涛是通信与信息系统博士,曾任百度系统部工程师、高级架构师、技术委员会主席,主导和见证了百度自研网络系统从无到有的整个过程。现在在金山云任网络与安全部技术总监,首席网络架构师,负责公司网络及安全业务的研发和管理工作。

以下是刘涛在钛坦白的分享:

大家好,我是金山云的刘涛,很高兴今天在钛坦白跟大家分享我们如何用VPC来组建混合云,帮助企业实现向云的过渡。正式开始之前我先介绍下我自己。我在2009年从中国科学技术大学博士毕业,之后加入了百度,在百度的六年多时间,正好经历了百度增长速度最快的那些年。我加入百度的时候,大概只有四五个人的网络产品的研发团队,到后来变成了一个七八十个人的研发团队,这期间,百度从四五万台服务器增长到四五十万台服务器。在这个过程中,我们做了很多百度自研的网络的产品,包括负载均衡、防攻击、交换机,甚至高密度百Gbps的汇聚的交换机,以及后来的百度公有云的网络及防攻击服务。2015年,我离开了百度,当时的思考是,我擅长的东西要得到更充分的发挥,那就应该去一个专注的做云计算的公司,所以说当时就选择了金山云。

金山云是一个专注于做to B业务的云服务商,成立于2012年,其创立之初,是基于金山快盘业务分拆而来。金山快盘这个业务是面向个人的云存储服务,大家应该都知道,那个时期,百度云盘、360、腾讯等公司都在做个人网盘,这个业务是非常烧钱的。所以,到2014年的时候,金山云的公司的管理层,包括我们当时的CEO张宏江博士和总裁王育林先生,非常敏锐的意识到,如果继续再去做个人云盘服务,将会面对的是一个竞争非常惨烈的难以盈利的一个红海市场,于是公司决定转型,把金山快盘业务卖掉,专注于做云计算服务。

我们在资本寒冬的2016年, C轮系列融资超过了一亿美金,目前的估值大约11亿美金。在国内的TOP300的独角兽排行榜里,金山云排名第50多名,这个排名中,如果只看云计算行业的公司,金山云是排在第一的。2016年第三方机构IDC提供的2015年度中国公有云企业的调研报告显示,金山云在2015年度,是云计算企业中营收增速最快的。

金山云提供的云服务是一个非常完整的体系,从企业级云存储、CDN,云主机,云网络,大数据服务,到垂直行业里的游戏云,视频云,医疗云,政务云,互联网行业云等等。举个例子,金山云的云存储服务KS3,类似于AWS 的S3服务,我们的日上传量是500TB左右,这是原始数据,如果考虑三副本的实际存储,日上传量约1.5PB,这个数字还在以很快的速度增长。所以从存储方面金山云在国内有很大的领先优势。有了存储,自然会带到CDN业务,金山云有自建的数百个CDN节点,同时给国内包括今日头条、GIF快手、爱奇艺、小米等大量的客户提供CDN及视频点播直播服务。在游戏行业,金山云提供从游戏评测,到游戏IaaS服务,到游戏的运维管理PaaS服务,以及广告变现等全生态流程的服务;在视频方面,提供从云计算、云网络的Iaas服务,到直播源站PaaS服务,到直播应用SaaS的全程服务。在医疗行业,我们为北大人民医院这样的客户提供医疗混合云方案。在政务云方面,我们为北京市政府,提供了北京市电子政务云及多个省市的政务云服务。

从前面钛坦白很多钛客的分享中,我看到有做SaaS的,也有做PaaS的。金山云专注于IaaS服务和一些垂直行业的更高层服务,同时,我们自己的客户及合作伙伴也有非常多是做SaaS服务的,包括是一些在国内非常有名的企业级SaaS服务商,他们使用金山云的IaaS及PaaS服务,去构建他们自己的企业SaaS服务。所以金山云像是一个生态系统一样,通过给我们的SaaS合作伙伴提供底层的资源和服务,配合他们一起去挖掘更广阔的云服务市场。

企业上云的常见问题

企业上云的问题

在我们和客户沟通,介绍方案的时候,客户最常见的就是以下这些问题:

第一,是不是可以节省成本。

第二,要不要信任云。不同类型的客户对云的信任问题理解不一样,很多天生生长在云上的客户,实际上对于云的信任度较高或者说他们的情况决定了他必须要信任云;对于有自己的IDC资源的客户,以及更大体量的客户,甚至是自建IDC的这些客户,他对云的信任和安全的理解又不一样。

第三,怎么上云,如何利用现在的资源去和云接入,去过渡到云上,以及最终应该是全面上云还是混合云架构。

为什么企业需要上云?

企业上云的原因

企业上云的原因

这张图是我总结的为什么我们的企业的客户需要上云。其中很大的一个原因,肯定是成本,这个成本应该是综合的成本,包含了人力,资源储备等各方面的成本。在成本之外还有几个很重要的原因就是关于资源、弹性以及团队。

首先从资源来讲,要找到好的IDC,要有非常好的供电架构和有非常好的制冷架构,好的土木承重结构;从网络上讲要有好的网络线路,要有好的BGP线路,有可靠的传输系统;从服务器硬件来看,要考虑硬件的选型,质量控制,交付管理,以及上述资源的部署周期。然后从弹性上来讲,比如说带宽资源储备及弹性,服务器硬件资源应对突发的弹性。

然后就是团队,这跟前面的资源和弹性都有关系,要有非常好的IDC,你就要找非常好的IDC的工程师,你需要好的网络就需要有很好的网络架构师和运维工程师,而且要有很好基础服务的工程师,比如说DNS,负载均衡,NAT等等。服务器选型评测交付控制做的好,也需要有对应的服务器硬件团队。在更高层次的应用来看,你可能还需要非常好的DBA,需要懂hadoop,MongoDB,Redis等等这样服务的团队。组建一个在上述各个方面都靠谱的团队,其时间成本和金钱成本是非常高的,我经常有朋友找我,说兄弟,能不能帮忙给推荐一个网络架构师,或者是推荐一个靠谱的DBA。在某些领域,靠谱的架构师流动性非常低,找齐基础设施领域各个方向的核心员工,需要消耗大量的时间核金钱。所以综合考虑起来,第一就是对于一个企业来说,他自身的体量能不能提供他所需要的那些资源,特别是一些非常重资产的IDC,网络这样的资源;其次就是部署的弹性,前面的嘉宾也反复的去提到过这一点;还有就是团队,如果把这些东西综合起来考虑,那么上云所带来的弹性带来的底层IaaS的资源质量保证,带来的专业技术团队的保证,就是非常有必要的了。

借下面这两张图,给大家举个例子,说明为什么上云是非常有必要的。第一张图是前阵子京广汉电信骨干出故障的时候,北京电信对于整个南方区域覆盖的质量,大家可以看有很多红色和黄色,其代表着有大量的丢包和延时增大。

下面这张绿色的图是金山云通过自建骨干网,将北京电信流量调度到上海电信出口后的覆盖质量图。当天使用金山云的客户在骨干网出故障的时候基本没有感知,或者只是非常短的受到了一些影响,当我们的调度预案实施了以后,故障就恢复了,而实际上电信骨干网的故障从当天下午14点一直持续到18点钟才恢复。

这是一个非常典型的例子,绝大部分的企业不具备这种自己组建一个全国范围的骨干的环网的能力,也没有能力自己建设北京、上海、广州这样的多中心节点多线BGP,同时能够有非常大的传输和BGP带宽储备可以应对这种大范围的故障。而这些资源和能力恰恰是公有云的服务商非常擅长的东西。

这里还是一个例子,如下图所示,是金山云标准Region的网络结构。图中的TC1、TC2是我们的网络接入点,我们可以通过我们的POP供应商合作伙伴,就近地接入客户的IDC或者办公室,同时,客户也可以直接拉光纤接入到我们的TC节点。TC节点除了连接客户的IDC、办公室,同时也是我们自己接入电信运营商的POP点。我们会通过多根独立物理路由的光纤连接到电信、联通、移动、鹏博士等多个运营商,目前北京上海Region提供十线BGP接入。

Region内网络架构

这个图里面下面的可用区(AZ)是通过我们自建的单波200Gbps的密集波分环网与TC节点互联的,这样一个城域环网的投资需要数千万元到上亿元,除了BAT这样巨型互联网公司,绝大部分中国的企业是很难自己建设这样级别的城域网的。

VPC是什么?

回到我们的主题,来讲讲VPC。 VPC这个词是一个专有名词,是Virtual Private Cloud(虚拟专有云)的简称。因为我们群里有很多做非技术的同学,所以我还要再简单介绍一下VPC。VPC相当于一个虚拟的数据中心。在没有VPC之前,传统的云网络是扁平网络。两者的主要区别在:传统的扁平网络中,云主机IP地址是由云服务商固定的分配的,其分布也经常是不连续的。这种IP地址的固定和离散,就会在企业需要做混合云的时候,和企业现有的资源存在网络地址空间冲突的可能,这是一个不灵活的地方。同时,扁平网络在网络层面上来讲,会依赖比较大的二层网络,这里面会在环路控制、广播风暴、多路径技术、热迁移范围等多个方面存在潜在的技术风险。

作为对比,VPC可以理解成是一个虚拟的数据中心,它可以提供给客户完全自定义化的IP地址空间规划。举个例子,企业现有的机房网络使用10.0.0.0/16这样的网段,对应在创建VPC的时候,可以根据自己的网络规划,使用10.1.0.0/16这样的地址空间。金山云VPC可以支持客户使用任意自己定义的地址空间,甚至是公网地址空间。其次,VPC可以提供包括像主机路由、网络地址翻译(NAT)、专线,以及多个VPC间对等互联(Peering)等灵活的功能,这些灵活功能的组合,会非常有利于企业实施混合云。

这里说起来有点抽象,下面我给张图,跟一起来看看VPC是一个什么样的东西。

大家可以看这个图里面都是虚线,因为他是用我们的软件定义的网络技术来虚拟出来的资源,但是对客户来说却是实实在在可用的服务。典型情况下,一个虚拟的数据中心里有什么呢?肯定要有一台路由器,这个路由器会连很多的交换机,这些交换机下面又分别连不同的虚拟机,金山云的VPC除了可以放虚拟机,还可以放物理机。同时VPC也会提供很多的网络服务和其他服务,比如提供NAT地址翻译,弹性IP(EIP),负载均衡(LB),VPN,防火墙,专线接入(DC)以及VPC和其他VPC互联的对等连接服务(Peering)。

这张图中间的这个路由器R,是一个分布式虚拟路由器(DVR),它是由分布在所有宿主机上的软件模块,一同构建出来的分布式路由器。DVR是云计算的一个非常核心的技术点,要实现一个高性能、高可靠的分布式的虚拟路由器是需要非常深厚的架构设计能力和开发实现能力。这点金山云和Openstack社区的实现是完全不同的,Openstack里面关于这部分的实现还是基于OpenVswitch的,OVS虽然有很好的灵活性和设计理念,但是它的性能,或者是应用的复杂程度,可能不一定是最好的。举个例子,像我们的这种虚拟路由器,可以实现一个虚拟机做报文路由转发100多万个包每秒,如果不是基于金山云自研的技术,可能这个数是一个非常低的值,例如10万或者是20万,甚至是更低。

上面这张图实际上还牵扯出来一个案例。我们遇到过一些客户,是非常老牌的互联网企业,他们的部分代码是写死的,要求代码运行的机器上必须得有两块网卡,并且一个网卡是公网,一个网卡是内网。于是,针对这类客户的需求,我们开发了这种双网卡VPC的主机,可以有两块网卡放在不同的VPC里,这个功能,在国内提供VPC的云服务商来中,金山云是少有的支持这个功能的服务商。

金山云混合云解决方案

自有IDC-混合云接入

第一种,如图所示的,我们可以通过专线的方式去和客户的IDC互联,互联带宽就可以根据需求来选择,比如说百兆、千兆或者万兆都可以,这种接入方式的成本即光纤的租赁费用或者是专线线路的租赁费用。客户可以通过专线直接连接到金山云的TC节点,也可以通过就近接入我们pop合作伙伴的方式来接入。另一种方式,也是我们非常多客户使用的方式,就是通过VPN的方式。VPN的实现有两种,一种是客户的IDC有商用的VPN的设备,例如juniper、思科、华三等厂商的设备,客户可以通过自己的VPN和我们的高可用VPN商用设备互相建立VPN连接,然后通过我们的SDN隧道网关,接入到VPC中。除了这种通过商用设备的VPN的互联方式以外,由于我们的VPC支持主机路由功能,因此也可以利用例如OpenSwan,OpenVPN等软件方式,通过云主机来搭建site-to-site的VPN。这种方式的成本就主要是云主机的成本以及VPN的带宽费用,其好处是灵活简便,客户自己就可以完成所有配置,且带宽粒度很细,可以按照Mbps为单位的粒度来控制成本。 

上面这张图里大家可以看到,客户的IDC有两个,其中一个右上角这个IDC里,我这里面填了一个叫Kingstack的东西,这个Kingstack就是金山云私有云的解决方案。我们提供基于Openstack二次开发的完整私有云解决方案,只需要三台服务器,就可以搭建起一个最小的私有云,同时根据客户规模需要,我们的私有云方案可以管理一千台物理机资源。基于这个方案,我们可以在帮客户接入公有云VPC的同时,将客户自己的IDC云化。Kingstack的售卖方式很灵活,可以按年购买整套方案的license,也可以按管理的物理机数量购买license。左上角这个IDC里,填了一个Dedicated-cloud,这也是我们云化IDC的方案,该方案不是基于开源的openstack的架构,而是基于我们公有云的架构,所以它的起始的资源要求量是比较高的,可能他需要二三十台机器来起步,但是它的可扩展性非常强,我们的一套公有云集群,可以管理2万台物理机。这个方案是针对特别大体量的客户去云化他资源的方案,我们金山云的杭州Region,就是针对我们一个超级大体量客户定制的专属Region。

这张图里还有两个VPC的Peer连接,大家可以看右下部分这两个VPC的互联,这就是我们对我们国内骨干网资源的封装,将我们的骨干网资源根据客户需求,拆分成非常细粒度的互联资源,来实现异地互联。这个功能,其实也是现在非常火爆的SD-WAN的一个实现。这个功能的典型场景举例来说就是,一个客户在北京和上海各有一个IDC,他想通过专线将两个IDC专线连起来,一种方案是客户自己采购长途光纤自建长途传输系统或者租用链路,另一种非常方便的方案就是,他可以在北京和上海分别接入金山云当地的VPC,然后在控制台上购买一个跨Region Peering对等互联服务,这样就可以实现北京和上海的IDC的互联。而且互联的粒度比起传统的这种方案更灵活,可以以兆为单位的,可以是1Mbps,10Mbps,也可以是1Gbps,10Gbps。

KIS&EPC

KIS&EPC

上面这张图介绍的是我们另外两种混合云的产品,一个产品叫冰岛(KIS)。所谓冰岛实际上是一块位于金山云IDC中的独立区域,简单来讲,就是在金山云的机房里的客户自己的私有IDC,他解决的是什么问题呢?实际上这是一个面向中等体量或者是小体量的有自己的物理资源客户的一个方案。我们有很多客户有一百台、三百台、五百台、两千台物理机,这些物理机要面临着选机房、选公网线路、选驻场的运维、管理现场的备件等很多很杂的事务,这些服务器数量不是特别大,但是又会需要很多的人力和精力去处理相关的事情,对这些客户来说,他其实不想去做这件事,同时这些客户又想要上云,于是我们金山云就提供了针对这个需求的产品,即客户可以把他的现有的物理资源直接托管到金山云的机房里,组建出一个私有的IDC。这个私有IDC最大的好处是什么?

第一、 他可以直接利用金山云的网络服务和防攻击服务,使用金山云的公网的出口,包括金山云的BGP和静态带宽资源。

第二、 他可以通过和我们的VPC互联,不受带宽限制访问所有的云资源,包括访问VPC里的物理机,和访问金山云的云存储服务等。

第三、 机器托管到机房里的所有现场运维工作,金山云都可以提供一部分免费的代维服务和一部分复杂的收费操作服务。机器托管到KIS中后,客户基本上不需要再去机房了。

第四、 金山云有业内最好的IDC团队,金山云的自建或者合建机房,有着国内顶尖的供电架构,制冷架构,和现场管理流程,客户从此可以不必在担心机房掉电或者空调出故障导致业务中断。

第五、 客户如果有一些特殊的硬件,不便于直接接入VPC的,也可以放在KIS中。例如有的客户有自己的Oracle RAC,SAN,NAS系统,或者做高算的RDMA网络,都可以放在KIS中。

举几个例子,金山云存储服务做得非常好,所以我们有一个视频图象处理的客户,他也是一个视频SaaS供应商,为了方便访问金山云存储,他把自己的物理机托管在了金山云的KIS产品中,然后通过机房内专线,以40G的带宽,访问金山云的KS3服务.而这个访问VPC方向资源的带宽是免费的,这对于客户节省成本,有非常大的意义。,我们现在KIS的一个大客户,通过内网专线访问VPC的带宽常态跑在70Gbps水平。这样级别的带宽,通过外部IDC拉专线来访问,成本会是非常昂贵的。

上面这个图里,除了右侧的KIS产品外,我们的另一种混合云产品,即左侧的VPC中的EPC产品。EPC是Elastic Physical Cloud的缩写,即把服务器放在VPC中,当作虚拟机来用的一种产品。对于客户自己的物理机,托管在VPC中,可以直接使用VPC的网络服务,例如NAT,LB,EIP等,同时我们也提供服务器的外包运维服务,可以很便利的在控制台直接发送外包工单让现场的外包人员去做操作。对于客户租赁的由金山云提供的物理机,我们可以进一步提供在控制台上图形化的开关机,重启服务器以及重新安装操作系统服务。这个产品适合于服务器都是标准服务器,且想把服务器放在VPC中使用VPC提供的各种网络和云数据服务客户。这些物理机,可以放在VPC中的任意虚拟交换机下,可以和虚拟机混合使用。对于托管了自己服务器的客户,如果临时需要额外的物理机资源,只需要在控制台中点几下,就可以开通金山云提供的云物理机了。
我们通过自研的SDN技术,控制定制的硬件交换机及高性能自研软件网关,实现了不对客户的专属物理机有任何侵入性,不在物理机上安装任何agent或者内核模块,提供給客户一个纯净的操作系统以及和虚拟机一样的便捷的VPC操作体验。

用VPC搭建高可用的架构

下面三张图,分别是如何用利用VPC云服务搭建机房内高可用,跨机房同城双活,跨Region异地双活或者异地灾备。

统一接入接出 高可用

统一接入接出 高可用

Region内高可用

Region内高可用

跨Region高可用

跨Region高可用

对于我们的客户来说,最基本的高可用就是在一个机房内,通过集群对抗单机故障的高可用方案,如第一张图所示,可以用负载均衡把流量分到多台机器上。另一种场景,如果想搭建一个Mysql的主从服务,可以利用LB和我们openAPI的组合来实现,当业务感知到需要对Mysql进行主备切换时,通过调用我们的OpenAPI,将LB的流量从原来的主,倒换到备即可。同理,搭建主从的Redis或其他服务,也可以这样做。

如果要再往上一个层次来看,如果要做同城的双活高可用方案,也是非常简单的,只需要在我们的控制台上去开一个LB,这个LB他指向了Region里不同机房(AZ)里的虚机即可。典型的在线业务模型是,虚机访问数据库或者缓存服务,或者云存储,加上业务的上下游逻辑。金山云的RDS,KCS(redis),KS3等服务,均支持跨AZ高可用,因此,客户的业务如果基于金山云的LB+VM+RDS+KCS来组合,那么仅需要控制台操作或者OpenAPI调用,就可以很轻松的组合出同城双活的架构了。

如果要想在高可用方面做更高的层次,比如说金融或者大型的游戏或者是大型的互联网客户,需要做异地双活或者异地灾备。那么抛开业务逻辑本身以及数据同步对于跨区域网络延迟的业务自身架构不说,从资源底层来讲,要做异地双活或者灾备,只需要如第三张图所示,使用金山云的GSLB(智能DNS)服务,并且在金山云的不同region启用一批资源,然后购买跨Region Peering服务就可以了。金山云自身是国内顶尖的CDN服务商,我们自己用的CDN系统就是基于金山云的GSLB服务实现的,因此,我们的GSLB的调度能力,也可很好的帮助客户实现非常精细粒度的流量调度。

我们做异地双活方案的客户,有两种使用方法。一种是做用户的分簇,利用我们的GSLB把北方所有的客户调度到北京Region,把南方所有的客户调度到上海Region。另一种方法,就是利用GSLB,直接让用户就近访问。同时如果一个Region的业务有故障的时候,再通过GSLB将用户全部调度到另一个Region服务。
这里还有第三种用法,就是做全球混服的游戏架构。使用国内的Region来覆盖国内玩家,并把核心数据放在国内的Region;使用香港Region来覆盖海外玩家,然后通过两个Region间的VPC peering服务,香港Region的业务,把核心数据同步回国内Region。

当然,上述所说的提供跨Region的多活方案里,云服务提供的只是基本的资源,互联和调度能力,业务自身的跨Region架构设计也是非常重要和不可或缺的。

案例:如何利用VPC做混合云架构?

第一个案例方案,被我们的几个SaaS服务客户、在线教育客户、物联网平台客户,以及一个大型生态型互联网公司客户使用。简单来讲就是他们有很多的业务或者是部门,而且他们的运维团队有很强的开发能力,运维团队向公司其他部门提供了包括内部DNS解析,监控告警,程序自动部署等多种服务,他们在部署的时候,选择一个VPC作为中心VPC,其他的VPC和这个VPC通过Peering连在一起,之后再通过中心VPC和他自己的IDC连在一起。这样运维团队,作为资源管理方,可以通过我们的IAM服务,将不同VPC的管理授权给不同的业务部门或者子公司,一方面各业务部门可以自主开通资源,做内部网络配置,同时又可以访问运维部门提供的公共服务。

上面这张图是另外一种案例,非常适合做SaaS服务的客户。我们有几个做电商后台SaaS服务以及做IM即时聊天后台SaaS的客户以及金山云自己的视频直播SaaS服务,都是通过这种架构来做的。从图中可以看到,通过对不同的子网去区分客户,这里面就是你看客户A的交换机,客户B的交换机、客户C、客户D,实际上他给每个客户分配了一个交换机,所有这个客户相关的虚拟机的资源都挂在这个交换机下。图中交换机的连线上的ACL,代表在这个虚拟交换机上,通过配置ACL规则,来隔绝彼此之间的访问。

这是一个典型的电商的场景,我们有很多的大型的电商客户,他们都有自己的IDC,有自己的资源,有自己的线路,但是他们有一个共同的问题,就是类似双十一这样的大促,会有几十倍上百倍于日常流量的访问,这时候他们需要额外的弹性资源。这个场景就是我们这类客户的连接场景。首先他们通过自己的IDC去和我们的VPC做专线的互联,联通后,会在我们VPC里启用对应的业务的前端资源,业务前端用了我们的负载均衡服务。这张图里一个特色就是我们的HTTPs的负载均衡,大家知道HTTPs的握手过程是非常消耗服务器计算资源的,典型的Intel Xeon双路服务器,每秒只能处理几千个HTTPs的握手请求。对于大促的瞬时爆发流量来说,拿普通服务器去承载这个计算量,成本上是非常不合适的。金山云的HTTPs负载均衡服务,帮客户把HTTPs的计算量全部转移到负载均衡上去实现,转发给客户主机的只是HTTP请求,从而帮助客户节省大量资源。

像我们的这种大型电商客户,会把他这种双十一的弹性资源,特别是业务前端,页面等等一些object放到我们的云上,当促销活动结束了以后,可以再裁撤VPC里的虚拟资源。这也是用云的好处之一,即提供灵活可伸缩的弹性资源。

最后这张图就是刚才我提到的我们冰岛产品的一个应用案例,这个应用案例对应两个客户,一个是大型互联网的广告的服务商,另一个也是一个大型的互联网的公司。这个架构里大家可以看左上角用虚机搭成在线服务的部分,右边是我们云服务数据库,云缓存服务。互联网公司的典型的在线业务的场景就是用LB分流给虚机,虚机去访问数据库,或者缓存服务。因此这两个客户,用虚机和云数据库,云缓存搭建了业务的前端。但是这些客户实际上他们是有很多计算的需求的,包括日志的处理,用户画像的计算,广告模型的训练等。

因为计算量会比较大,对性能要求高,而且是一个常备的计算集群,每天都要去算,因此客户会选择用我们的EPC云物理机组成Map-Reduce的集群,这个Map-Reduce集群里所有的物理机都是用双万兆的连接连在一起的,他可以跑出非常高的性能和吞吐率来。然后还有一些场景客户需要去做模型的训练,这两年比较流行的用GPU做大规模高性能浮点计算,最典型的比如像Deep-Learning这样的大量高维矩阵单精度浮点计算,都是用GPU的物理机集群来算,客户也选择了把GPU机器托管在VPC中。MR集群计算出来的数据,以及GPU集群计算出来的模型,再推送到VPC里的虚机组成的在线集群,来提供对终端用户的服务。除了这些常备的日常计算外,企业也需要每周或者每月的临时弹性资源来计算月报,周报等报表,这时候,客户选择启用金山云提供的KMR(Kingsoft Map-Reduce)服务,按照分钟粒度计费,计算完周报月报后,将数据存到KS3上,然后拆除集群,节省成本。

今天我分享了很多案例和方案了。总结来看,我的建议是,如果是企业的体量非常大,他对云的要求可能只是适当的弹性;企业体量中等,他可能是私有云和公有云和混合场景会比较合适;如果体量更小一点,可能就是直接用纯云的方式就可以了。(本文首发钛媒体,根据金山云网络与安全部技术总监刘涛在钛坦白上的分享整理)

………………………………………………

钛坦白第26期八个小时的分享已经全部结束,干货会陆续发布在钛媒体上:https://www.tmtpost.com/tag/1508094

报名入群听课:在微信公号“钛媒体”(taimeiti),发送“钛坦白”

与钛坦白合作,推荐钛客:请与钛坦白负责人佳音联系,邮箱jiayinge@tmtpost.com

本文系作者 佳音 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

17:37

宁波航交所:部分航线需求回升,综合指数止跌上涨

17:36

会稽山:2023年净利润同比增长15.11%,拟10派2.1元

17:35

先正达:未来将在合适时机重启上市进程

17:33

国资委确定首批启航企业,加快发展新质生产力

17:31

国家外汇管理局:截至2023年末,我国全口径外债余额为173352亿元

17:28

煌上煌:2023年归母净利润同比上涨129.01%,拟10派1.8元

17:27

日本环境省:111个地点的水样检测出有机氟化物超标

17:26

南方航空:预计在2024年夏秋旺季国际航班恢复至80%以上

17:24

中马传动:2023年净利润同比增长72.25%,拟10派2元

17:22

刘建洋任江苏省委组织部部长

17:22

鼎信通讯:国家电网对公司全部采购品类启动招标采购“熔断机制”

17:20

上交所通报1-2月处罚,涉2家保荐机构

17:19

2000余名投资者获赔3.29亿元,飞乐音响证券虚假陈述案审结

17:18

财政部将于4月3日招标续发3年期和10年期记账式附息国债,金额分别为1250亿元、1350亿元

17:17

天津海关破获走私“球星卡”大案,案值3.8亿元

17:16

石头科技发布V20扫地机器人,搭载双光源固态激光雷达

17:12

OpenAI据悉向电影行业巨头高管们推荐Sora

17:11

下周央行公开市场将有8500亿元逆回购到期

17:10

民航局:将以城市场景为重点开展城市空中交通试点示范

17:09

宁德时代董事长曾毓群质疑日本厂商鼓吹固态电池技术:安全等方面仍存在问题

扫描下载App