对话天翼云：大模型，为什么没「云」不行？-钛媒体官方网站

2017年，Amazon SageMaker正式推出，也是业内第一个基于云的机器学习开发平台，但云上平台起初并没有成为行业公认的优选。

彼时的人工智能产业存在大量小模型，很多客户并没有强烈的上云意愿，数据量不大，模型也不复杂，只需几个人的小团队就能完成算法的设计，算力需求完全可以用裸金属服务器满足。

换句话说，大家更想要的是GPU卡，而不是一个多层架构设计的云平台。大模型改变了一切。

天翼云科技有限公司总经理胡志强表示，大模型不断扩大的参数规模和快速迭代的技术路线跨越式地提升了模型的能力，但是同时也为大模型的训练和应用带来了很多挑战。比如算力利用率的瓶颈日益凸显、算力成本压力进一步增大、模型的构建难度不断提升，模型的行业落地更加复杂。

以天翼云为例，为顺应大模型时代对于云服务商的新要求，打造了智算数据中心AIDC、云智超一体化基础设施平台“云骁”、一站式智算服务平台“慧聚”等，并在此基础上构建国云大模型生态，形成云智一体的智算服务体系。

云上机器学习平台已经成为云计算大厂竞相布局的关键，天翼云最近推出的“慧聚”，也反映出行业的大趋势。

大模型，为什么必须上云

相比于人工智能的小模型阶段，大模型数据量愈发庞大，需要一个包含算法工程师，数据工程师等多种角色的团队，在团队中，对于数据资产、算力资产、模型资产等的协作管理更加复杂，在训练中需要控制的变量更多，仅靠堆卡无法解决这些问题，大模型平台是顺应行业形势的选择。

“过去行业都在讨论，大模型平台是不是真的有意义。”天翼云科技有限公司智能边缘事业部大数据及AI产品线总监曹莉娜对钛媒体App表示，机器学习平台具备预置模型，在没有大模型的时候，虽然有预置的框架和参数，但是预制模型的通用性非常低，只能应用于类似的场景。

目前大模型大多基于Transformer架构，大家都能精调预置大模型，产生不同的效果，超大规模预训练模型成为一项系统工程，平台的规模化的功能多样化，使得预训练模型的基准水平大幅提升，开发者和企业都可以在云上找到自己所需模型，比拼的是对行业和场景的理解。

需要指出的是，云上机器学习平台的复杂度并没有消失，而是大模型需求一方将难题让渡给云厂商，由云厂商来解决从训练到应用之间的关键问题。

大模型改变了人工智能产业游戏规则，也改变了云厂商的竞争维度，天翼云总结出大模型训练和应用层面的挑战，首先是模型训练成本高，大规模训练集群的构建涉及到多个高度复杂、需要精密协同的软硬件工程技术栈，建设难度大。

其次是训练、微调等工作复杂，涉及到数据处理、模型训练、模型压缩、评测、部署等诸多环节，技术门槛高。

最后是大模型输入数据量庞大，而输出则具备一定的不可控性，因此内容安全、数据安全、系统安全的保障难度大。

“云计算不仅仅是资源，如果客户直接买几台云主机，自己想要去做大模型，是做不起来的，机器资源、网络连接、调度方法等，如何更能够匹配大模型需求，客户很难实现最优解，天翼云希望封装底层能力提供给客户。”曹莉娜说。

而如果仅提供IaaS层资源，只有一些技术水平比较高的客户能够使用，天翼云将大模型训练等经验沉淀到“慧聚”云平台，当大模型厂商再去训练的时候就能少踩坑，并且将整个链条所需的技术输出，例如预置镜像、插件、框架等适配工作。

解决大模型的指数级问题

大模型是典型的“量变引起质变”，与之相应地，规模带来的复杂度也呈指数级增长，当大模型参数等指标超过一定的阈值，慧聚等大模型云平台要解决的问题也指数级上升。

据了解，“慧聚”的原型产品早就在天翼云内部开发，而后几经演变，综合来看，慧聚能够将大模型开发训练过程中的关键流程、复杂技术和实践经验进行总结和抽取，构建出一站式全链路的大模型生产应用的流水线。

其核心价值在于大幅降低大模型训练、微调、部署、推理的门槛，让客户能够更专注于模型升级和应用落地。

曹莉娜提到，天翼云接触到的客户需求多种多样，既有希望直接买GPU卡的客户，也有点名要云上机器学习平台的客户，甚至有一些客户有自己的机器学习平台。很多客户来天翼云测试之后，发现无论是买卡还是用自己平台，不如整体采用慧聚平台。

如果给大模型厂商算一笔账，一台8卡 A100 GPU服务器价格要一百多万元人民币，128台服务器的集群就要花费超1.28亿元，这还不算机房租赁、交换机等价格，很多厂商还要投入大量人员去发挥每一块卡的潜力。

以某大模型初创企业为例，虽然作为大模型厂商，但他们有相当比例的工程师在做基础设施层面的工作，一个训练周期为三个月的千卡集群，成本压力非常大，如果能实现加速效率提高百分之三十，就能省下一笔海量的成本支出。

从产品来看，慧聚包含四大平台，能够支持数据准备、模型开发、任务管理、模型优化、服务部署和模型服务的全链流程。同时能对AI大模型，三个关键要素进行全面管理：算力，算法，数据。四大平台实现了将数据管好，将算法转化为模型，将算力利用好的目标。

不同云厂商都已有或准备类似的产品，大家最关注的两个环节，一是如何缩短模型训练时间（即一个飞轮迭代时间），二是如何保证稳定训练。

曹莉娜介绍，为了应对如上问题，天翼云慧聚构建两大技术栈，算力加速与算力调度。其中，算力加速包含数据加速、网络加速、算子加速、编译加速等技术，实现对框架针对性优化，使得模型训练推理效率更高，在框架、模型等镜像拉取的时候进行镜像加速，数据传输层通过预加载步存储等技术加快数据集存取，实现数据加速；在芯片层实现算子加速等方式。

“因为大模型的训练是通过模型的切片，数据的切片，将模型、框架和数据进行整合，形成任务实例，通过分布式训练方式分配到各GPU上，我们构建的算力调度层核心构建了合理灵活的任务的分配和调度策略，能够保障训练任务能够准确到达每个所分配GPU，实现超大规模集群内多个GPU同时承接相应的训练任务，提升对GPU的利用率”，她说。

此外，在算力调度层面，慧聚整个调度层对于底层的GPU和IB、NVlink等网络进行感知，实时获取GPU和网络的状态，为任务的分配和调度奠定基础，起到呈上启下的核心作用。

即便遇到底层故障，天翼云慧聚构建的调度层也能实现快速重新调度、断点续训，在任务中断过程中实现快速进行恢复，保障训练任务的不中断。

云计算本质是一门生态生意，大模型生态打破了产业的原有分工，从底层芯片到AI开发者社区，新的大模型云生态正在形成。

（本文首发钛媒体APP 作者｜张帅，欢迎添加作者mr3right交流）

对话天翼云：大模型，为什么没「云」不行？

大模型，为什么必须上云

解决大模型的指数级问题

敬原创，有钛度，得赞赏