前xAI视频多模态负责人离职揭示行业瓶颈：视频模型的天花板竟是语言模型

2026.06.03 17:13

前英伟达Cosmos核心作者、xAI Grok Imagine负责人Ethan He离职转向语言模型研究，称视频模型最大瓶颈是语言模型。他分享小团队高效迭代、视频依赖语言模型提示词重写等观点，预测未来生成式界面将成交互前端，语言模型将自主管理上下文。

前xAI视频多模态负责人Ethan He在近期访谈中提到，视频模型真正的天花板在于语言模型，这正是他选择离职、转而投入语言模型研究的核心原因。Ethan曾是英伟达Cosmos视频基础模型的核心作者，2025年中加入xAI后，仅用三个月就从零搭建出Grok Imagine 0.9，并主导开发了音频视频联合生成、视频扩展等功能。

他总结了xAI能快速取得成果的两个关键因素：一是小而精的团队结构——成员能力出众、目标高度一致，沟通成本极低；二是将迭代速度放在首位，比起追求单次训练的完美，更重要的是每天能完成更多实验，模型质量的提升往往源于数据管道和训练流程中微小bug的修复。

视频模型训练通常分为四个步骤：先训练图像模型，为语言理解打下基础，再将其迁移到视频任务上；借助VLM生成精准的文本-视频对，解决数据对齐问题；通过VAE将视频帧压缩到低维潜空间；最后训练扩散Transformer生成视频。推理阶段则通过步骤蒸馏优化生成速度，Cosmos已实现1-4步生成。

他提到视频模型的训练成本极高：存储10亿条视频需要5PB空间，月存储费约23万人民币，数据出口的费用则更高，I/O瓶颈很容易拉低GPU的利用率。理想的世界模型需要满足交互性、实时性和长时程三个条件，目前的视频模型离这些要求还有不小差距，xAI的视频扩展功能虽解决了历史上下文的问题，但真正的解决方案在于让模型能自主提取相关信息。

语言模型是视频模型智能水平的核心支撑：扩散模型需要依赖更大规模的语言模型进行提示词重写，把用户的简单输入转化为更详细的描述，从而提升生成质量。语言模型还能调用工具、协调智能体、规划视频布局。音频视频联合生成的难点在于音乐连续特征处理和时间精确对齐。

Ethan预测，未来扩散模型会成为人机交互的前端，语言模型和代码则在后端提供支持，用户界面能实时生成且高度个性化。他选择转向语言模型研究，重点关注模型对上下文的自主管理能力，相信未来的模型能主动压缩或保留上下文，甚至能自我调整运行规则。

他的职业经历也带来一些启示：在机器学习领域内切换研究方向其实并不难，训练大模型的核心原则是相通的，不需要完全从零开始。

作品声明：内容由AI生成