文 | 字母AI
从汪滔(Alexandr Wang)加入Meta算起,已经过去大约十个月了,世界眼瞅着就要从一个夏天走到另一个夏天,Meta的“牛油果”终于熟了。
当地时间4月8日,Meta官宣发布Muse系列的第一款模型Spark。这也是Meta吸纳汪滔并建立“超级智能实验室(MSL)”之后端上来的第一盘菜。
汪滔在X上连发数条消息介绍新模型,表示:“九个月前,我们从零开始重建了人工智能技术栈,包括全新的基础设施、架构和数据管道。Muse Spark 正是这项工作的成果。”
就连之前传闻与汪滔不和的Meta前首席科学家杨立昆(Yann LeCun)都赶来恭喜,气氛一片祥和。
![]()
Meta官方强调,Spark的设计初衷是“小巧快速”,用这样一个模型打头阵,而不是“憋大招”直接发布碾压态势的模型,Meta也清楚时间不等人。
目前来看这一招奏效了,Meta的股价在当日一度上涨约9%。
01 新模型Muse Spark
首先,让我们来看看Meta发了个什么模型。
新模型名叫Muse Spark,其中Muse是模型系列的名称。这个名字也挺有意思的,Muse即“缪斯”,Spark是“火花”。
Meta表示,Muse Spark是Meta迄今为止功能最强大的模型。它目前为Meta AI应用和网站提供支持,并将于未来几周内陆续登陆WhatsApp、Instagram、Facebook、Messenger和AI眼镜。Meta还将通过API向部分合作伙伴提供该模型的私有预览版。
很明显,Meta想要充分发挥自己的平台优势,明确表示Muse Spark是专为Meta的产品而打造的。
它将为Meta AI提供更智能、更快速的支持,并随着时间的推移解锁新功能,这些功能可以引用用户在Instagram、Facebook和Threads上分享的推荐内容和信息。
“我们正朝着个人超级智能的目标迈进:打造一款能够随时随地帮助任何人处理他们最关心之事的智能助手。”
Muse Spark的设计初衷是小巧快速,却足以应对科学、数学和健康领域的复杂问题,其核心是一个原生多模态推理模型。
与以往将视觉和文本“拼接”在一起的版本不同,Muse Spark从底层架构开始重建,将视觉信息整合到其内部逻辑中。这种架构转变实现了“视觉思维链”,使模型能够标注动态环境——例如识别复杂咖啡机的组件,或通过并排视频分析纠正用户的瑜伽姿势。
![]()
然而,最重要的技术飞跃是新增的“思考”模式。
Meta声称,该功能协调多个子智能体并行推理,使Meta能够与谷歌的Gemini Deep Think和OpenAI的GPT-5.4 Pro等极端推理模型相媲美。
![]()
单模型测试结果来看。
Meta的新模型Muse Spark在综合智能指数上表现亮眼。它在Artificial Analysis Intelligence Index(一个涵盖多维度基准的综合智能评分)上拿到了52分,位列全球第4名。排在前面的分别是Gemini 3.1 Pro和GPT-5.4(均为约57分),以及Claude Opus 4.6(约53分)。
相比去年Llama 4 Maverick的仅18分,这已经是巨大的进步,显示Meta在前沿模型上明显追赶了回来。
具体强项和弱项:
. PhD级科学推理(GPQA Diamond):Muse Spark达到了89.5%的准确率,表现相当强劲,但仍略微落后于Gemini 3.1 Pro(94.3%)、GPT-5.4(92.8%)和Claude Opus 4.6(92.7%)。
. 图表与视觉理解(CharXiv Reasoning,在Contemplating模式下):得分86.4,在这项多模态视觉推理任务上明显优于竞品——超过了Gemini 3.1 Pro(80.2)、GPT-5.4(82.8)和Claude Opus 4.6(65.3)。视觉理解和图表推理是Muse Spark的突出优势之一。
. 医疗硬推理(HealthBench Hard):得分42.8%,大幅领先所有主要竞品,包括GPT-5.4(40.1%)、Gemini 3.1 Pro(20.6%)和Claude Opus 4.6(14.8%)。Meta表示,这得益于他们与超过1000名医生合作进行的针对性训练,医疗相关能力是它的亮点。
. 软件工程与编码(SWE-Bench Verified):得分77.4%,落后于Claude Opus 4.6(80.8%)和Gemini 3.1 Pro(80.6%)。Meta自己也坦承,在长时程多步自主任务(agentic tasks)和复杂编码工作流上还有差距,需要继续投入。
. 多模态多学科理解(MMMU Pro):得分约80.4–80.5%,仅次于Gemini 3.1 Pro(83.9%),在视觉多模态任务中排名第二。
总体来看,Muse Spark在视觉多模态推理、医疗领域和高效推理上表现突出,尤其适合Meta自己的社交、内容和健康生态;但在纯编码和长链条自主任务上仍有追赶空间。
02 推迟数次的“牛油果”
在X上,发生了一个有趣的小插曲。
作为Meta如今的AI掌舵手,汪滔(Alexandr Wang)在X上咣咣发布消息宣传新模型。
这个时候,有人指出,Meta给出的benchmark图表太混淆视听,“简直是犯罪”。在这张图表中,Muse Spark的分数排在第一列并且全部标成突出高亮色,乍一看,感觉是全面领先,但是细看便知其实有些分数是较低的。
![]()
![]()
在图表上玩花样,其实并不新鲜,OpenAI此前已经多次因此受到指责。
有意思的是,汪滔这次选择了立刻“滑跪”,回复该质疑:
“抱歉,我们并非有意暗示我们的得分最高。恰恰相反,大多数评估结果表明,我们的模型还有很多需要改进的地方。我们不会再犯同样的错误。”
![]()
不难看出,Meta也并非要让Muse Spark达到全面碾压之势,而是要回到AI的竞争行列当中。
从种种迹象来看,Muse系列应该就是Meta此前内部代号“牛油果(Avocado)”的项目。
牛油果已经跳票太久,Meta如今采取了“先小后大”的策略。Meta在官方博文中强调,Spark主打快速小巧,这只是个开始:
“我们的模型正在按预期发展。Muse Spark是我们发展历程中的一个早期数据点,我们正在开发更大规模的模型。”
这和AI行业(尤其是头部玩家)习惯于“炸场”“惊世骇俗”的节奏不同,但是Meta确实也没时间慢慢来了。
去年初,Meta发布Llama 4系列后,模型表现未达预期(尤其是Behemoth大模型性能提升不足),随后暂停了Llama系列的进一步开源研发。
到了去年夏天,Meta斥资143亿美元投资Scale AI(持股49%),并直接挖来Scale AI创始人兼CEO、28岁的汪滔(Alexandr Wang)担任首席AI官,正式成立Meta Superintelligence Labs(MSL)。
同时Meta展开疯狂挖角,从OpenAI、Google等公司高薪招募数十名顶尖研究员,部分offer达到数百万至上亿美元。
成本方面,Meta2025年全年AI相关资本支出达722.2亿美元;2026年1月财报指引显示,这一数字将大幅提升至1150亿—1350亿美元,几乎翻倍,主要用于MSL的模型训练和数据中心扩建。
过去这十个月的时间里,Meta以及扎克伯格、Meta的AI一把手汪滔身上,都压力山大。人们迫切地想看到汪滔加入、Meta重组之后,究竟会端上来一盘什么菜。
至少从市场的第一时间反馈来看,Meta放弃“憋大招”转而先上小菜的策略是奏效的,Meta股价当日一度大涨近9%,创下自今年1月以来最大单日涨幅。截至收盘,Meta收涨6.5%。
一个值得注意的信息是,过去外界一直认为“牛油果”将完全转向闭源,但Meta这次却没有把话说死。未来,Meta可能走开源与闭源并行的混合策略,将旗舰模型和独家技术保留在内部的同时保持新鲜模型对广泛开发者群体的开源可用性。
Meta总算把“牛油果”端上桌了,但这还远远不是终点。对汪滔和扎克伯格来说,Muse Spark更像是一声发令枪,未来如何,还要看“越来越强”的承诺能不能兑现。







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论