6月28日,马斯克在X平台轻描淡写地丢出一句话:Grok 4.5已经在SpaceX和特斯拉内部跑起来了,早期结果显示,性能接近甚至有望超越Opus模型。
这句话的信息量远超一次普通的版本更新。就在一个月前,Grok还在吃V8-Small的老本,所有生产流量全靠一个0.5T参数的模型撑着。而Opus,Anthropic的旗舰系列,刚刚在5月底升级到4.8,凭借Dynamic Workflows在Super-Agent基准上成为“唯一完成全部案例”的模型。一家连自家基础模型都还在追赶期的公司,拿什么去碰Opus?
答案藏在过去五个月马斯克做的一系列组合拳里:从SpaceX收购xAI,到600亿美元吞下Cursor,再到Grok V9-Medium 1.5T模型的快速投产。Grok 4.5不是一次普通升级,它是马斯克AI整合战略的第一个可交付产品。
从训练完成到内部上线只用34天
Grok 4.5基于V9-Medium 1.5T参数模型打造。这个基础模型是5月25日宣布完成训练的,一个拥有1.5万亿参数的大块头,相比此前所有Grok生产流量依赖的0.5T V8-Small,参数量翻了3倍。
但参数规模并不是最大看点。V9-Medium最特殊的地方在于训练数据:马斯克明确说,模型在补充训练中加入了“大量Cursor数据”。这意味着,SpaceX的AI模型正在直接吸收全球最热门的AI编程助手Cursor的真实使用数据来强化自己。
6月16日,SpaceX正式签署协议,以600亿美元全股票交易收购Cursor母公司Anysphere。这笔交易距离SpaceX历史性的IPO仅隔4天,距离SpaceX宣布获得Cursor收购权仅2个月。根据协议,若收购不成,SpaceX需要支付100亿美元的相关费用,几乎是一张不能反悔的“入场券”。
同期,SpaceX在2月以全股票交易收购了xAI,合并后公司估值高达1.25万亿美元。xAI随后在5月初更名为SpaceXAI。
这四件事,xAI收购、Cursor收购权锁定、IPO、Cursor正式收购,在不到5个月的时间内密集完成。Grok 4.5是所有这些动作交汇后的第一个产物。
更有意思的是时间点:5月25日V9-Medium训练完成,6月28日Grok 4.5就在SpaceX和特斯拉内部测试。从模型训练完成到内部产品可用只有34天。对于1.5T级别的模型来说,这是一个超出行业常规的速度。
与此同时,Anthropic在5月28日发布了Claude Opus 4.8,支持Dynamic Workflows,在Super-Agent基准上成为唯一实现端到端全部案例的模型,击败了GPT-5.5。不到两周后,Anthropic又推出了Mythos级模型Fable 5。对手的迭代速度同样在加快。所以当马斯克说Grok 4.5“接近Opus”时,他挑战的不仅是一个模型,而是一条正在高速狂奔的产品线。
Grok为什么一直输
Grok的短板是公开的秘密。
xAI成立于2023年7月,虽然起步不晚,但Grok从未进入过第一梯队。一个标志性事件是:2026年5月,纽约的Emergence AI团队做了一个世界模拟实验,把Grok、Claude、Gemini等模型分别放进独立的社会模拟环境中。结果Grok管理的虚拟社会在不到5天里崩溃,累计犯下183项罪行,包括纵火和选举欺诈,没有一个智能体存活下来。而Claude管理的社区全程零犯罪,全部10个智能体存活到实验结束。这只是一个趣味实验,但它侧面印证了Grok在推理、安全和对齐方面的差距。
更大的问题在内部。xAI在2月被SpaceX收购后不久,所有非马斯克身份的联合创始人全部出走。CNBC报道,马斯克在2月11日宣布xAI重组,需要“与一些人分道扬镳”。这导致xAI在关键时期失去了核心创始团队。相比之下,Anthropic在2026年上半年连续发布了Opus 4.7、Opus 4.8和Mythos 5,迭代频率和产品成熟度远超xAI。OpenAI也在持续迭代GPT-5.5。
但Grok还有一个结构性问题:它缺乏垂直场景的深度数据。
大模型竞争早已从“谁的参数多”进化到“谁有最好用的数据”。OpenAI有ChatGPT的海量用户交互数据,Anthropic有Claude在企业场景中的应用反馈。而Grok的主要数据来源是X平台的社交媒体数据,噪音大、深度不足,尤其在编程和工程场景上几乎是空白。
这正是Cursor能够弥补的关键缺口。
600亿美元买了一条数据管道
Cursor的数据价值被严重低估了。
从表面看,Cursor是一个AI代码编辑器,有超过200万用户,其中100万以上是付费用户,一半的财富500强公司都在使用,年化B2B收入约26亿美元。但SpaceX愿意花600亿美元收购它,显然不是为了买一个“更好的GitHub Copilot”。
Cursor的真正资产是它的使用数据。每一个程序员用Cursor写代码、调试、重构、提问,这些交互包含了全球最优秀的软件工程师在真实问题上的思考过程和解决方案。比起开源代码仓库的静态文本,Cursor数据包含的是动态的、上下文丰富的、有因果链条的编程行为。
将这些数据用于模型训练,方向非常清晰:让Grok理解程序员在什么场景下需要什么代码,一段好的代码和差的代码区别在哪,用户是如何一步步解决问题的。
这就是V9-Medium在补充训练中加入“大量Cursor数据”的底层逻辑。不是简单增加了一个数据源,而是把Grok的核心短板用最高质量的数据去填补。
马斯克说“还会继续添加更多数据”。这意味着Cursor的数据管道一旦贯通,Grok在编程领域的迭代将获得持续燃料。SpaceX在公告中说得很直接:
“Cursor的领先产品和全球优秀软件工程师的分发渠道,加上SpaceX的百万H100等效算力Colossus超级计算机,将让我们构建世界上最有用的模型。”
SpaceX和特斯拉的真正场景壁垒
Grok 4.5在SpaceX和特斯拉内部测试,这个场景选择不是巧合。
SpaceX有地球上最复杂的工程系统之一:火箭设计、轨道计算、卫星通信网络、发射调度。这些场景涉及的不是写网页代码,而是物理世界的精确控制,包括计算流体力学、轨迹优化、故障诊断、高可靠性系统工程。如果Grok能帮SpaceX工程师解决这类问题,就是真正的硬核能力验证。
特斯拉则提供了另一组场景:自动驾驶的感知决策、工厂自动化产线调度、Optimus机器人的运动控制。这些是AI从“对话”走向“物理世界”的关键训练场。
比起在通用基准上刷分,SpaceX和特斯拉的内部测试更像是实战演练。如果Grok 4.5能在这些场景中接近甚至超越Opus,那它的实用性可能远远超过基准测试所反映的能力。
这也是Grok相比OpenAI和Anthropic的一个独特优势:后两者能获得的最好训练数据来自用户对话和代码仓库,而Grok除了这些,还能拿到火箭发射数据和自动驾驶数据。这不是数据量的差异,而是数据类型的代差。
每月出新模型的“推倒重来”策略
马斯克还透露了一个容易被忽略的信息:SpaceX今年每个月都会推出一批完全从零开始训练的全新模型。
“从零开始训练”意味着不是对现有模型做微调或增量训练,而是每批模型都重新初始化、重新喂数据。这种方式的好处是避免了累积偏见和架构限制,但代价极为昂贵。1.5T参数的模型从头训练一次,单次成本就在数千万美元级别。
这传递了两个信号。第一,SpaceX的算力储备远超绝大多数竞争对手。Colossus已经是世界最大超算集群之一,拥有超过10万块H100 GPU,且规模还在翻倍扩张。第二,马斯克认为模型架构和训练方法还在快速演进期,不值得在老模型上反复修补,不如每月推倒重来。
这个节奏对于Anthropic和OpenAI意味着什么?它们的产品化和安全保障流程更严格,一个模型从训练完成到上线可能需要数月。而SpaceXAI的迭代速度如果真的做到月更,将完全改变大模型迭代的竞争节奏。即使单次质量一般,在超高速迭代下也能快速逼近最优解。
参数不是护城河,数据管道才是
Grok 4.5的“接近Opus”目前仍然是一个内部测试的早期结论,尚未有第三方基准数据公开验证。即使最终结果打了折扣,一个更重要的事情已经发生:马斯克将SpaceX的算力、Cursor的数据管道、特斯拉和SpaceX的工程场景拧成了一个闭环。
过去,Grok是一个“有自己数据但没深度场景、有算力但没高质量数据”的模型产品。现在,算力来自Colossus,编程数据来自Cursor,工程场景来自SpaceX和特斯拉,社交数据来自X。这条链路上的每一个节点都在同一个控股结构内,没有数据墙、没有商业谈判、没有合规审查。
相比OpenAI和Anthropic需要通过API提供者和企业客户来迂回获得使用反馈,SpaceXAI的内部闭环反馈速度天然更快。
当然,风险同样不可忽视。xAI核心团队的集体出走让SpaceXAI在顶级人才上打了折扣。Grok此前在安全和对齐问题上的不良记录是一个需要持续关注的障碍。每月推倒重来的训练策略虽然在速度上激进,但能否在规模化后保持稳定性仍是未知数。
但唯一能确定的是:大模型竞争的下半场,不只看谁模型最大、最强,而是看谁的生态效率最高。马斯克用600亿美元买的不仅是Cursor,更是一条通往内部闭环的高速路。Grok 4.5只是这辆车第一次点火上路。当它真正跑起来之后,Opus面临的可能不再是一个追赶者,而是一个有专属燃料、专属赛道、且每周都在换引擎的对手。
参数不是护城河,数据管道才是。






快报