前xAI视频多模态负责人Ethan He在近期访谈中提到,视频模型真正的天花板在于语言模型,这正是他选择离职、转而投入语言模型研究的核心原因。Ethan曾是英伟达Cosmos视频基础模型的核心作者,2025年中加入xAI后,仅用三个月就从零搭建出Grok Imagine 0.9,并主导开发了音频视频联合生成、视频扩展等功能。
他总结了xAI能快速取得成果的两个关键因素:一是小而精的团队结构——成员能力出众、目标高度一致,沟通成本极低;二是将迭代速度放在首位,比起追求单次训练的完美,更重要的是每天能完成更多实验,模型质量的提升往往源于数据管道和训练流程中微小bug的修复。
视频模型训练通常分为四个步骤:先训练图像模型,为语言理解打下基础,再将其迁移到视频任务上;借助VLM生成精准的文本-视频对,解决数据对齐问题;通过VAE将视频帧压缩到低维潜空间;最后训练扩散Transformer生成视频。推理阶段则通过步骤蒸馏优化生成速度,Cosmos已实现1-4步生成。
他提到视频模型的训练成本极高:存储10亿条视频需要5PB空间,月存储费约23万人民币,数据出口的费用则更高,I/O瓶颈很容易拉低GPU的利用率。理想的世界模型需要满足交互性、实时性和长时程三个条件,目前的视频模型离这些要求还有不小差距,xAI的视频扩展功能虽解决了历史上下文的问题,但真正的解决方案在于让模型能自主提取相关信息。
语言模型是视频模型智能水平的核心支撑:扩散模型需要依赖更大规模的语言模型进行提示词重写,把用户的简单输入转化为更详细的描述,从而提升生成质量。语言模型还能调用工具、协调智能体、规划视频布局。音频视频联合生成的难点在于音乐连续特征处理和时间精确对齐。
Ethan预测,未来扩散模型会成为人机交互的前端,语言模型和代码则在后端提供支持,用户界面能实时生成且高度个性化。他选择转向语言模型研究,重点关注模型对上下文的自主管理能力,相信未来的模型能主动压缩或保留上下文,甚至能自我调整运行规则。
他的职业经历也带来一些启示:在机器学习领域内切换研究方向其实并不难,训练大模型的核心原则是相通的,不需要完全从零开始。






快报