杨植麟 GTC 2026 演讲:首次完整披露 Kimi 技术路线图

AGI
月之暗面是如何K2.5的规模化升级的?

月之暗面是如何K2.5的规模化升级的?继今年 1 月底正式发布 Kimi K2.5 以后,在 2026 年的英伟达 GTC 大会上,月之暗面 Kimi 创始人杨植麟首次披露了该模型背后的技术路线图。

杨植麟表示, Kimi 的进化逻辑可以归纳为三个维度的共振:Token 效率、长上下文以及智能体集群(Agent Swarms)。在他看来,当前的 Scaling 已经不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。如果能将这三个维度的技术增益相乘,模型将表现出远超现状的智能水平。

技术重构是本次演讲的核心。杨植麟提出,行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为 Scaling 的瓶颈。

自 2014 年以来,Adam 优化器一直被视为行业标配,但在超大规模训练中,寻找更具 Token 效率的替代方案已成趋势。Kimi 团队在实验中验证了 Muon 优化器在提升 Token 效率方面的显著潜力,但在将其扩展至万亿参数规模的 K2 模型训练时,发现了 Logits 爆炸导致模型发散的稳定性难题。

为此,团队研发并开源了 MuonClip 优化器,通过 Newton-Schulz 迭代并结合 QK-Clip 机制,在彻底解决 Logits 爆炸问题的同时,实现了 2 倍于传统 AdamW 的计算效率。

针对 2017 年诞生的全注意力机制(Full Attention),杨植麟展示了基于 KDA 架构的 Kimi Linear。这是一种混合线性注意力架构,它挑战了“所有层必须使用全注意力”的惯例,通过优化递归存储管理,在 128K 甚至 1M 的超长上下文中,将解码速度提升了 5 到 6 倍,且在不同长度的场景下均保持了优异性能。

此外,针对已有十年历史的残差连接,Kimi 引入了 Attention Residuals 方案,将传统的固定加法累加替换为对前序层输出的 Softmax 注意力,解决了隐藏状态随深度增加而无限制增长、从而稀释深层贡献的顽疾,使每一层都能根据输入内容有选择地聚合信息。

过去十年,大多数大规模深度学习模型使用的“残差连接”结构基本未做过重大改变。传统的残差结构是通过对每一层的输出进行统一求和来实现信息传递,虽然这种方式在一定程度上有效,但也存在信息丢失和计算效率低下的问题。

Kimi团队的最新技术报告提出一种全新方案,允许模型在每一层选择性地关注此前各层的输出,而不是简单地进行求和。这一创新不仅优化了计算效率,还显著提升了大模型的训练效果。报告显示,经过改进的48B模型训练效率提升了1.25倍。

根据报告内容,Kimi的三位联合创始人杨植麟、吴育昕、周昕宇与数十名研究员共同完成了这项技术突破。报告不仅在国内引起了广泛关注,也迅速成为全球AI领域的焦点。

报告发布后,马斯克通过社交媒体表示:“Impressive work from Kimi”(令人印象深刻的工作),OpenAI前研究副总裁、o1系列推理模型主要发明者Jerry Tworek也表示,Kimi的这一技术突破标志着“深度学习2.0”的到来,他认为这种创新将在未来的AI发展中起到至关重要的作用。

前OpenAI联合创始人Andrej Karpathy也对这一研究给予了高度评价,他提到:“看来我们还没把‘Attention is All You Need’这句话按字面意思理解透。” Karpathy认为,Kimi团队的创新不仅挑战了现有的深度学习架构,还推动了注意力机制在大规模模型中的进一步应用。

这项创新的残差连接重新设计,可能会成为未来大规模AI模型架构的标配。Kimi团队的研究成果显示,通过引入动态的、依赖输入的注意力机制,模型能够更智能地选择性关注关键信息,从而提升训练效率,减少计算资源的消耗。

业内专家普遍认为,这一技术突破可能推动更多AI公司探索新的架构设计,进而提升AI模型的普适性和灵活性,帮助大模型应用场景进一步拓展。

在跨模态研究方面,杨植麟分享了一个重要的观察:原生的视觉-文本联合预训练中,视觉强化学习(Vision RL)能够显著反哺文本性能。消融实验数据显示,经过视觉 RL 训练后,模型在 MMLU-Pro 和 GPQA-Diamond 等纯文本基准测试上的表现提升了约 2.1%。这意味着空间推理与视觉逻辑的增强,可以有效转化为更深层的通用认知能力。

演讲的最后,杨植麟深入探讨了智能体集群的扩展。他认为未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5 引入的 Orchestrator 机制,能够将复杂的长任务拆解给数十个子 Agent 并行处理。为了防止协作过程中出现单点依赖导致的“串行塌缩”,团队设计了全新的并行 RL 奖励函数,激励模型真正学会任务分解与并行执行。

杨植麟在总结中谈到了 AI 研究范式的转变。他提到,十年前的研究往往更看重新想法的发表,但受限于算力资源,很难通过不同规模的实验来验证这些想法。而现在由于拥有了足够的资源和“缩放阶梯(Scaling Ladder)”,研究者可以进行严谨的规模化实验,从而得出更自信、更可靠的结论。

这也是为什么 Kimi 能够从那些看似“古老”的技术中挖掘出新突破的原因。Kimi 将继续坚持开源路径,将 MuonClip、Kimi Linear 和 Attention Residuals 等底层创新贡献给开源社区,打造更强大的模型,推动人工智能技术的普惠。

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

扫描下载App