钮祜禄·Meta闭源归来，时代追上了李彦宏？-钛媒体官方网站

文 | 超前实验室，作者｜青苹吹果

时隔一年，钮祜禄·扎，强势归来！

Meta全新大模型Muse Spark正式上线，内部代号Avocado。

这个“牛油果”，来头可不小。

TA不仅是Meta超级智能实验室（MSL）成立9个月以来的首个成果，更是扎克伯格在经历Llama 4惨烈翻车后，亲手砸烂原有摊子、豪掷逾140亿美金进行组织与战略大洗牌之后，递呈市场的第一张答卷。

更令人意外的是策略上的彻底转向。那个曾高喊“开源对抗闭源”的Meta，这次直接给Muse Spark贴上了“闭源”标签，连API都暂时只向少数指定合作伙伴开放预览。

这让我想起2024年那场沸沸扬扬的“开源与闭源”之争，当时李彦宏大跳预言家，一口咬定开源其实是一种智商税。“当你理性地去想，大模型能够带来什么价值，以什么样的成本带来价值的时候，就会发现，你永远应该选择闭源模型。闭源模型一定比开源模型更强大，推理成本更低。”

随后几年，开源生态蓬勃发展，社区热情高涨。不少人以“开源胜利”为由，调侃李彦宏“判断失误”“被时代打脸”。一时间，闭源似乎成了保守与封闭的代名词。

不过，风水轮流转，时代和老扎一起，再一次追上了老李。

消息一出，资本市场也瞬间做出了最诚实的反应。

周三当天，Meta的股价像坐了火箭，盘中一度涨超10%，最终以超过6%的涨幅收盘，总市值稳稳站在1.55万亿美元的高位。

为什么一款模型发布能有如此巨大的能量？

懂行的人一眼就看出，Muse Spark背后藏着的，是Mate破釜沉舟的自我革命。

全部推翻！在“废墟”中重建高楼

要理解今天这款模型的战略意义，先要知道它诞生于怎样的一地鸡毛之中。

去年春天，被寄予厚望的Llama 4发布后，很快遭遇了严重的信誉危机。

社区质疑声不断，随后更是有爆料直指Meta在基准测试中动了手脚，拿着针对特定任务微调的“特供版”去刷榜，而公开给普通用户的版本表现完全是另一回事。

拿精修图相亲，结果见面发现是“照骗”。

这件事对Meta AI品牌的伤害是致命的，甚至图灵奖得主、Meta前首席科学家Yann LeCun在离职后也亲口承认，Llama 4的测试结果“确实被修饰了一点”。

这件事彻底点燃了扎克伯格的怒火。

据外媒报道，他“对所有相关人员失去了信心”，随后直接架空了整个生成式AI团队，大批人马离开。

这不仅仅是某个模型的失败，更意味着过去那条从模型架构到研发流程，从开源路线到组织文化的路，可能都走不通了。

扎克伯格面临的选择很残酷，要么继续修修补补，要么全部推翻，在废墟上重建。

他选了后者，而且干得非常彻底。

2025年夏天，扎克伯格做出了一笔震惊硅谷的交易，以高达143亿美元的天价拿下数据标注巨头Scale AI 49%的无投票权股份。

但更关键的是这笔交易的核心，时年不到30岁的华裔创始人Alexandr Wang（亚历山大·王）被直接请进Meta，出任首席AI官，统管全新组建的Meta超级智能实验室（MSL）。

这个年轻人什么来头？MIT辍学、19岁创立Scale AI、26岁就跻身亿万富豪行列。

扎克伯格对他的评价是：“同辈创业者中最杰出的一位，深刻理解超级智能的历史重要性”。

而这位年轻舵手上任后的第一把火，就是烧向旧体系，从OpenAI、谷歌DeepMind、Anthropic等竞争对手那里，以天价薪酬挖来了一整支“复仇者联盟”。

翻看MSL首批11人名单，你会惊讶地发现，7位核心研究员都是华人背景。

浙大校友毕树超（GPT-4o语音模式与o4-mini共同创建者）、清华校友赵晟佳（ChatGPT到o3的核心成员）、中科大校友于佳慧（前OpenAI感知团队负责人）……再加上思维链提出者Jason Wei、扩散模型核心人物宋飏等业内顶尖高手。

这支被戏称为“亿元天团”的队伍，目标只有一个：从零开始，重写Meta的AI命运。

很明显，扎克伯格急了，他不求名声了，只求能拿出一款真正能打、能收回成本的顶尖产品。

这笔账他算得很清楚：反正2026年光AI相关的资本支出就要烧掉1150亿到1350亿美元，这次，必须确保每一分钱都砸在刀刃上。

偏科的「视觉天才」

砸了这么多钱，挖了这么多大牛，交出的Muse Spark到底成色如何？

Meta这次表现得格外老实，不再像Llama 4时代那样大肆鼓吹“遥遥领先”，反而在官方博客里坦率地列出了一张优缺点分明的成绩单。

这种老实人的态度，反倒让人觉得，这回怕是真的有点东西了。

先看让Meta扬眉吐气的长板。

在医疗和视觉多模态这块，Muse Spark简直是“开挂”般的存在。

在极高难度的医学开放式问答评测HealthBench Hard中，Muse Spark直接干到了42.8分，而隔壁GPT-5.4只有40.1分，Gemini 3.1 Pro更是可怜的20.6分，直接被拉开两到三倍的差距。

凭什么这么强？

Meta拉着超过1000名专业医生合作整理训练数据，等于给模型配备了一个庞大的顶级专家顾问团做特训。

别人家AI还在看百度百科，Muse Spark已经把协和专家的会诊记录背下来了。

这还没完，在科研论文图表的深度理解测试（CharXiv Reasoning）中，Muse Spark以86.4的高分力压GPT-5.4的82.8和Gemini 3.1 Pro的80.2，稳坐头把交椅。

你随便甩给它一张复杂的医学影像或者科学图表，它都能像资深研究员一样给你掰扯得明明白白。

更让人心动的是它的应用场景。官方放出的案例里，只要对着食物拍张照片，Muse Spark就能分析出所有食物的分别的卡路里。

吃炸鸡前拍一下热量，从开心地吃变成了心惊胆战地吃......

还能识别出你的瑜伽动作，指出正在发力的肌群并纠正姿态。

请健身私教的钱这不就省下来了！

甚至连咖啡机它都会用！

我都不敢想，Muse Spark要是应用在AI眼镜上会有多爽......

然而，上帝打开一扇门，往往也会关上一扇窗。在纯逻辑推理和代码编程这块，Muse Spark的表现就没那么“神”了。

在ARC AGI 2抽象推理测试中，它仅拿到42.5分，被Gemini 3.1 Pro（76.5分）和GPT-5.4（76.1分）甩开了一个巨大的身位。在软件工程实测（SWE-bench Pro）中，它的通过率（52.4%）也略逊于GPT-5.4的57.7%。

简单来说，Muse Spark就像个严重“偏科”的天才少年，做数学奥赛卷子（编程推理）有点吃力，但给医学博士当答辩评委（视觉医疗）绰绰有余。

这种鲜明的性格特征，也让外界看懂了Meta的新打法。

不追求面面俱到的“六边形战士”，而是先在自己有绝对优势的垂直领域扎下根来。

逻辑不够，眼睛来凑，先帮大家把现实世界里的麻烦事儿解决了再说。

AI学会压缩思维，才是真正的降维打击

而抛开那些花里胡哨的跑分，Muse Spark背后真正可怕的地方，其实藏在Meta公布的一项技术数据里。

Meta官方博客明确指出：在新重建的技术栈下，Muse Spark达到与上一代Llama 4 Maverick同等性能水平所需的计算量，减少了超过一个数量级。这可是10倍以上的效率跃升。

不是优化了百分之二三十，而是直接砍掉了一个零。

在算力就是金钱的AI军备竞赛中，这几乎等于用对手造一发子弹的预算造出了一颗原子弹。

怎么做到的？这就要提到MSL团队在这次发布中反复强调的一项核心技术——「思维压缩」（Thought Compression）。

听起来很玄乎，其实原理很巧妙，在强化学习训练阶段，团队引入了一种“思考时间惩罚”机制。

简单说就是，模型回答问题时如果啰里啰嗦想太久，就给它“扣分”。在这种压力下，模型被迫进化，学会了用更少的推理token、更短的逻辑链条，去解决同样的复杂问题，而且准确率不降反升。

这就好比一个经验丰富的外科医生和一个还在翻教科书的新手，前者在脑子里过一遍就知道怎么下刀，后者得把整本教材默念一遍才敢动手。

而MSL团队还发现了一个更有趣的“相变”现象，模型在学会精简思考后，又会在此基础上适度延长推理，实现效率和性能的动态平衡。

这是一种更高阶的智能，不仅知道答案，还知道“怎么最省力地找到答案”。

配合这个理念，Muse Spark还推出了多Agent并行推理的「沉思模式」（Contemplating Mode）。

传统的推理模式是让一个模型在那闷头使劲想（延迟高），而Muse Spark是同时拉起好几个子智能体，各自处理不同维度的信息，最后汇总。

在相近的响应时间内，这种“群殴”式的打法让它在Humanity‘s Last Exam这类地狱难度的评测中，跑出了58%的好成绩，直接把GPT-5.4 Pro（43.9%）和Gemini Deep Think（48.4%）按在地上摩擦。

扎克伯格在Facebook上发帖介绍时说，这不仅仅是一款智能助手，更是“在个人超级智能相关领域表现尤为突出”的新物种。

这句话的潜台词是：Meta不再满足于做一个对话机器人，而是要造一个真正能帮你看病、做饭、规划生活的“全能外挂”。而且，他们正在用一套更聪明、更省钱的方式去实现它。

说实话，Muse Spark算不上一个完美无缺的“六边形战士”，它的编程能力还有待打磨，抽象推理也与顶流存在差距。

但TA用9个月的时间，硬生生把Meta从Llama 4的舆论泥潭里拽了出来，重新回到了能与GPT-5.4、Gemini 3.1 Pro同场竞技的第一梯队。

对于扎克伯格和这支“华人天团”来说，Muse Spark更像是一个宣言。

那个靠开源攒口碑的Meta已经翻篇了，而一个更务实、更有技术野心的新Meta，才刚刚开始热身。