文 | 超前实验室,作者|青苹吹果
时隔一年,钮祜禄·扎,强势归来!
Meta全新大模型Muse Spark正式上线,内部代号Avocado。
![]()
这个“牛油果”,来头可不小。
TA不仅是Meta超级智能实验室(MSL)成立9个月以来的首个成果,更是扎克伯格在经历Llama 4惨烈翻车后,亲手砸烂原有摊子、豪掷逾140亿美金进行组织与战略大洗牌之后,递呈市场的第一张答卷。
更令人意外的是策略上的彻底转向。那个曾高喊“开源对抗闭源”的Meta,这次直接给Muse Spark贴上了“闭源”标签,连API都暂时只向少数指定合作伙伴开放预览。
这让我想起2024年那场沸沸扬扬的“开源与闭源”之争,当时李彦宏大跳预言家,一口咬定开源其实是一种智商税。“当你理性地去想,大模型能够带来什么价值,以什么样的成本带来价值的时候,就会发现,你永远应该选择闭源模型。闭源模型一定比开源模型更强大,推理成本更低。”
随后几年,开源生态蓬勃发展,社区热情高涨。不少人以“开源胜利”为由,调侃李彦宏“判断失误”“被时代打脸”。一时间,闭源似乎成了保守与封闭的代名词。
不过,风水轮流转,时代和老扎一起,再一次追上了老李。
消息一出,资本市场也瞬间做出了最诚实的反应。
周三当天,Meta的股价像坐了火箭,盘中一度涨超10%,最终以超过6%的涨幅收盘,总市值稳稳站在1.55万亿美元的高位。
![]()
为什么一款模型发布能有如此巨大的能量?
懂行的人一眼就看出,Muse Spark背后藏着的,是Mate破釜沉舟的自我革命。
全部推翻!在“废墟”中重建高楼
要理解今天这款模型的战略意义,先要知道它诞生于怎样的一地鸡毛之中。
去年春天,被寄予厚望的Llama 4发布后,很快遭遇了严重的信誉危机。
社区质疑声不断,随后更是有爆料直指Meta在基准测试中动了手脚,拿着针对特定任务微调的“特供版”去刷榜,而公开给普通用户的版本表现完全是另一回事。
拿精修图相亲,结果见面发现是“照骗”。
这件事对Meta AI品牌的伤害是致命的,甚至图灵奖得主、Meta前首席科学家Yann LeCun在离职后也亲口承认,Llama 4的测试结果“确实被修饰了一点”。
这件事彻底点燃了扎克伯格的怒火。
据外媒报道,他“对所有相关人员失去了信心”,随后直接架空了整个生成式AI团队,大批人马离开。
这不仅仅是某个模型的失败,更意味着过去那条从模型架构到研发流程,从开源路线到组织文化的路,可能都走不通了。
扎克伯格面临的选择很残酷,要么继续修修补补,要么全部推翻,在废墟上重建。
他选了后者,而且干得非常彻底。
2025年夏天,扎克伯格做出了一笔震惊硅谷的交易,以高达143亿美元的天价拿下数据标注巨头Scale AI 49%的无投票权股份。
但更关键的是这笔交易的核心,时年不到30岁的华裔创始人Alexandr Wang(亚历山大·王)被直接请进Meta,出任首席AI官,统管全新组建的Meta超级智能实验室(MSL)。
这个年轻人什么来头?MIT辍学、19岁创立Scale AI、26岁就跻身亿万富豪行列。
扎克伯格对他的评价是:“同辈创业者中最杰出的一位,深刻理解超级智能的历史重要性”。
而这位年轻舵手上任后的第一把火,就是烧向旧体系,从OpenAI、谷歌DeepMind、Anthropic等竞争对手那里,以天价薪酬挖来了一整支“复仇者联盟”。
翻看MSL首批11人名单,你会惊讶地发现,7位核心研究员都是华人背景。
浙大校友毕树超(GPT-4o语音模式与o4-mini共同创建者)、清华校友赵晟佳(ChatGPT到o3的核心成员)、中科大校友于佳慧(前OpenAI感知团队负责人)……再加上思维链提出者Jason Wei、扩散模型核心人物宋飏等业内顶尖高手。
这支被戏称为“亿元天团”的队伍,目标只有一个:从零开始,重写Meta的AI命运。
更令人意外的是策略上的彻底转向。那个曾高喊“开源对抗闭源”的Meta,这次直接给Muse Spark贴上了“闭源”标签,连API都暂时只向少数指定合作伙伴开放预览。
很明显,扎克伯格急了,他不求名声了,只求能拿出一款真正能打、能收回成本的顶尖产品。
这笔账他算得很清楚:反正2026年光AI相关的资本支出就要烧掉1150亿到1350亿美元,这次,必须确保每一分钱都砸在刀刃上。
偏科的「视觉天才」
砸了这么多钱,挖了这么多大牛,交出的Muse Spark到底成色如何?
Meta这次表现得格外老实,不再像Llama 4时代那样大肆鼓吹“遥遥领先”,反而在官方博客里坦率地列出了一张优缺点分明的成绩单。
这种老实人的态度,反倒让人觉得,这回怕是真的有点东西了。
![]()
先看让Meta扬眉吐气的长板。
在医疗和视觉多模态这块,Muse Spark简直是“开挂”般的存在。
在极高难度的医学开放式问答评测HealthBench Hard中,Muse Spark直接干到了42.8分,而隔壁GPT-5.4只有40.1分,Gemini 3.1 Pro更是可怜的20.6分,直接被拉开两到三倍的差距。
凭什么这么强?
Meta拉着超过1000名专业医生合作整理训练数据,等于给模型配备了一个庞大的顶级专家顾问团做特训。
别人家AI还在看百度百科,Muse Spark已经把协和专家的会诊记录背下来了。
这还没完,在科研论文图表的深度理解测试(CharXiv Reasoning)中,Muse Spark以86.4的高分力压GPT-5.4的82.8和Gemini 3.1 Pro的80.2,稳坐头把交椅。
你随便甩给它一张复杂的医学影像或者科学图表,它都能像资深研究员一样给你掰扯得明明白白。
更让人心动的是它的应用场景。官方放出的案例里,只要对着食物拍张照片,Muse Spark就能分析出所有食物的分别的卡路里。
吃炸鸡前拍一下热量,从开心地吃变成了心惊胆战地吃......
![]()
还能识别出你的瑜伽动作,指出正在发力的肌群并纠正姿态。
请健身私教的钱这不就省下来了!
![]()
甚至连咖啡机它都会用!
![]()
我都不敢想,Muse Spark要是应用在AI眼镜上会有多爽......
然而,上帝打开一扇门,往往也会关上一扇窗。在纯逻辑推理和代码编程这块,Muse Spark的表现就没那么“神”了。
在ARC AGI 2抽象推理测试中,它仅拿到42.5分,被Gemini 3.1 Pro(76.5分)和GPT-5.4(76.1分)甩开了一个巨大的身位。在软件工程实测(SWE-bench Pro)中,它的通过率(52.4%)也略逊于GPT-5.4的57.7%。
简单来说,Muse Spark就像个严重“偏科”的天才少年,做数学奥赛卷子(编程推理)有点吃力,但给医学博士当答辩评委(视觉医疗)绰绰有余。
这种鲜明的性格特征,也让外界看懂了Meta的新打法。
不追求面面俱到的“六边形战士”,而是先在自己有绝对优势的垂直领域扎下根来。
逻辑不够,眼睛来凑,先帮大家把现实世界里的麻烦事儿解决了再说。
AI学会压缩思维,才是真正的降维打击
而抛开那些花里胡哨的跑分,Muse Spark背后真正可怕的地方,其实藏在Meta公布的一项技术数据里。
Meta官方博客明确指出:在新重建的技术栈下,Muse Spark达到与上一代Llama 4 Maverick同等性能水平所需的计算量,减少了超过一个数量级。这可是10倍以上的效率跃升。
![]()
不是优化了百分之二三十,而是直接砍掉了一个零。
在算力就是金钱的AI军备竞赛中,这几乎等于用对手造一发子弹的预算造出了一颗原子弹。
怎么做到的?这就要提到MSL团队在这次发布中反复强调的一项核心技术——「思维压缩」(Thought Compression)。
听起来很玄乎,其实原理很巧妙,在强化学习训练阶段,团队引入了一种“思考时间惩罚”机制。
简单说就是,模型回答问题时如果啰里啰嗦想太久,就给它“扣分”。在这种压力下,模型被迫进化,学会了用更少的推理token、更短的逻辑链条,去解决同样的复杂问题,而且准确率不降反升。
这就好比一个经验丰富的外科医生和一个还在翻教科书的新手,前者在脑子里过一遍就知道怎么下刀,后者得把整本教材默念一遍才敢动手。
而MSL团队还发现了一个更有趣的“相变”现象,模型在学会精简思考后,又会在此基础上适度延长推理,实现效率和性能的动态平衡。
这是一种更高阶的智能,不仅知道答案,还知道“怎么最省力地找到答案”。
配合这个理念,Muse Spark还推出了多Agent并行推理的「沉思模式」(Contemplating Mode)。
![]()
传统的推理模式是让一个模型在那闷头使劲想(延迟高),而Muse Spark是同时拉起好几个子智能体,各自处理不同维度的信息,最后汇总。
在相近的响应时间内,这种“群殴”式的打法让它在Humanity‘s Last Exam这类地狱难度的评测中,跑出了58%的好成绩,直接把GPT-5.4 Pro(43.9%)和Gemini Deep Think(48.4%)按在地上摩擦。
扎克伯格在Facebook上发帖介绍时说,这不仅仅是一款智能助手,更是“在个人超级智能相关领域表现尤为突出”的新物种。
这句话的潜台词是:Meta不再满足于做一个对话机器人,而是要造一个真正能帮你看病、做饭、规划生活的“全能外挂”。而且,他们正在用一套更聪明、更省钱的方式去实现它。
说实话,Muse Spark算不上一个完美无缺的“六边形战士”,它的编程能力还有待打磨,抽象推理也与顶流存在差距。
但TA用9个月的时间,硬生生把Meta从Llama 4的舆论泥潭里拽了出来,重新回到了能与GPT-5.4、Gemini 3.1 Pro同场竞技的第一梯队。
对于扎克伯格和这支“华人天团”来说,Muse Spark更像是一个宣言。
那个靠开源攒口碑的Meta已经翻篇了,而一个更务实、更有技术野心的新Meta,才刚刚开始热身。







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论