文 / 山杉
追赶者的四月
4月23日,腾讯混元Hy3 preview发布并开源。几个小时后,OpenAI深夜扔出GPT-5.5。不到24小时,DeepSeek V4预览版跟着上线,终于交出了新一代旗舰模型。
这只是一个缩影。这个4月,全球AI大模型依然如过江之鲫、频频上新。其中有三家特别值得留意:
首先是Meta。4月8号那天扎克伯格大概是长舒了一口气——投入不少却始终差口气的Meta AI,终于凭最新大模型Muse Spark打了个翻身仗,其性能表现出色,股价当日大涨6.5%;还有Google,Gemini 3.1系列继续保持强势,在各方面都有拉开差距的迹象——尽管它在另一些地方又亮起了红灯。然后是国内巨头腾讯,带着它刚刚发布的Hy3 preview。
之所以将它们类比,在于这三个各自领域的王者,都在AI大战中经历了一段颇受质疑的时期。
最难受的当然是Google,毕竟连AI基础架构Transformer都是它发明的。三年前,OpenAI用它的技术路线搞出ChatGPT,Google被迫应战、仓促推出大模型Bard,结果大失水准,在演示中连韦伯望远镜的常识都搞错,公司市值当即蒸发千亿美元,甚至一度有人认为Google大势已去。
Meta更戏剧化,经历过战略错判、内部斗争,也吃过惨痛教训——去年4月高调发布LLaMA 4,号称超越DeepSeek V3,结果不到两天就沦为一颗"哑弹"。部分测试数据低到离谱,随后更被曝出刷榜丑闻——提交给排行榜的版本,和公开给开发者的版本不是同一个模型。为此,其AI研究副总裁宣布离职。
跟上述两家相比,腾讯的遭遇倒不至于那么剧烈,但"腾讯慢了"、"腾讯AI到底行不行"的疑问从未停止过。
此前,混元核心团队背景多集中在计算机视觉、机器学习等方面,而非大语言模型最核心的方向。过去三年,混元受困于组织分散,数据和Infra等基础设施薄弱,认知与全球顶尖团队有较大差距,其基础模型给外界留下的印象是,"四平八稳,缺乏特色"。在2026年初的腾讯年会上,马化腾也直言"动作慢了"。
大模型技术固然是一场马拉松式的竞争,但面对一日千里、纷繁复杂的态势,很难没有焦虑——尤其是必须直面一个问题:是否走对了方向。
面对严峻的局面,Meta和Google做了同一件事:自我纠偏、痛苦地聚焦。
Google将Brain和DeepMind两个团队合并——此前这两个团队都很优秀,却各自为战。之后是大举投入,从Gemini 1.0的低于预期,到1.5 Pro方向回正,到3.1 Pro多维度领先——近三年持续迭代,Gemini的AI聊天机器人市场份额已从不到6%攀升至约20%以上。
纠偏是持续的过程。就在这个4月,红灯在谷歌再一次亮起,联合创始人布林亲自挂帅组建了一支"编码突击队",在当下火热的编码智能体新战场,重新追赶。
而经历过短暂的慌乱,Meta去年重组AI部门,成立超级智能实验室(MSL),并豪掷重金延揽顶级人才。九个月后交出了Muse Spark,其风格和LLaMA 4截然不同,不喊"SOTA",主动标明弱项,但在图表理解和医疗推理上等方面表现突出,token效率极高。一个因为追求数字而翻车的公司,如今选择了克制和场景聚焦。终于重新赢得了外界的认可。
反观腾讯,它过去三年似乎经历了Meta、Google故事的前半段。到了这最近半年,腾讯内部也密集经历了重建、重构和聚焦:延揽前OpenAI研究员姚顺雨出任首席AI科学家,AI Lab撤销,收拢AI研发力量,招揽一批顶级人才,重建研发架构和基础设施……几个月之后,推出Hy3 preview。
据了解,这一模型进行了底层重构,"总参数295B,激活参数21B,最大支持256K上下文长度,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。"
新模型很惊艳吗?在1T参数以上巨型模型林立的当下,很难这么评价,毕竟还只是一个不到300B的Preview版。但对腾讯自身来讲,是一个转变的信号弹。模型发布后,外界立刻将它与主流模型进行了比较,感知最强的是其实用性和体验的改善。一位大模型测评博主写道:Hy3终于如愿进入了国模第一梯队。更直接的信号是,Hy3 preview上线即成为腾讯十余款核心产品的首选模型,这在混元历史上是第一次。有博主直言:"先上桌,再追赶,这一步算是迈出来"。
对大模型竞争来说,最重要的可能不是这个版本的表现"数据"——Meta和Google证明了,落后了的巨头只要敢于自我变革、重新出发,走到正确的路上,极大概率会靠着独特的优势加速兑现其潜力的。
于是,值得一问的问题是:腾讯开始走上正确的道路了吗?
![]()
不是迭代,是推倒重来
"Hy3 preview是混元大模型重建的第一步。"在Hy3 preview发布的官方Blog中,腾讯首席AI科学家、AI Infra部及大语言模型部负责人姚顺雨写道。很显然,Hy3 preview不是在上一个版本基础上修修补补。
据了解,Hy3 preview是从2026年1月底左右才开始起步,组织架构、基础设施基本上重建了一遍。原有的训练框架没有沿用,Agent系统几乎从零搭建。一位内部人士用了一个形象的说法:这不是翻新装修,是把房子拆了重盖。
"重训一个底座"到底意味着什么?
首先需要海量优质数据,经过清洗、筛选、去重、分类、配比——数据比例配错了,模型可能中文好但英文差,或者会聊天但不会写代码。
然后是大规模张GPU组成集群,稳定运行几十天甚至几个月,中间任何一张卡出故障、任何一次通信中断都可能导致训练回滚——Meta训LLaMA 3.1 405B,16384张H100跑了54天,期间遭遇419次意外中断,平均三小时一次,而这还是在成熟的训练基础设施上。
训完底座只完成了一半,之后还要通过强化学习,把一个"读了很多书但不会说人话、不会干活"的毛坯打磨成能和人正常交互的产品。
混元面对的恰恰是重构级别的难度——基础设施全新搭建,训练范式切换,团队大规模大量新人加入。
既然难度这么大,也已经有了上一代模型,为什么不在已有基础上迭代,非要从头来过?而且是在所有人都在加速奔跑的时候。
答案可能和直觉相反。看起来推倒重来充满不确定性,实则恰恰是为了获得确定性。
混元Hy3 preview选择的技术路线——MoE架构、强化学习驱动的后训练等等,很多是被多家头部团队反复验证过的成熟方案。曾经DeepSeek V3用MoE做到了业界标杆,OpenAI和Anthropic早已把强化学习作为后训练的核心引擎,Google和Meta都在把底座与应用场景越拉越近。选择它们的风险反而是可控的。
Google当年面对的也是同样的重构难题。Brain和DeepMind分别都很强,但这个组织形态跑不出统一的大模型产品。皮查伊选择强行合并,短期代价是Gemini 1.0低于预期,但这个决定让Google获得了一个统一的底座和一致的迭代方向——之后所有加速都建立在这个基础上。Meta更极端,LLaMA 4翻车之后,扎克伯格没有在原来基础上修补,而是另起炉灶,连品牌都换了。
重建的本质,是用短期的阵痛换取长期的确定性——让自己站到一条被验证过的、正确的道路上,为混元更大参数的模型迭代打好基础。
这或许便是混元的选择。那么具体来说,这条路通向哪里?
重建一条"实用"的道路
如果用一个词概括Hy3 preview的重构方向,大概是"实用"。
这两个字听起来朴素,但在大模型行业的语境里,其实是一个鲜明的立场选择。
以前很多大模型团队默认的叙事是线性的:先把模型参数做大、做到更聪明、更通用,榜单更高;然后再谈落地、可用、体验。但混元没有选择"先极致智能再可用"的从众路线,而是从源头就把"实用性"塞进整个链路里——从数据理解、预训练,到强化学习,再到评估——都是围绕真实场景的实用性来构建。
这个方向似乎正在变成行业共识。同一天发布的GPT-5.5,定位从"回答"转向"执行";DeepSeek V4万亿参数开源,核心方向也聚焦Agent。
对混元而言,这种"有用哲学"首先体现在底座的能力选择上:聚焦腾讯社交、游戏、广告等核心业务场景中最需要的模型能力,做体系化建设。
复杂推理——Agent时代对模型最基本的要求是"能想":面对复杂任务能规划、能拆解、能一步步推导。
指令遵循与上下文学习——长期以来国产模型的痛点。举个具体例子:多人群聊到第100轮,中间插了几个人说话,准确识别"某句话是在回复两条之前的那条"——人类做得到,大多数模型做不到。这恰恰是Hy3 preview此次的突破,直接服务于元宝和元宝派的真实交互场景。
代码与智能体能力——也许是最出乎意料的进步。此前混元在Coding领域几乎没有存在感,之所以高优先级投入,应该和腾讯自身的产品布局直接相关:今年推出的WorkBuddy、QClaw等智能体产品,都需要底座在代码生成和Agent协作上过关。
三个方向不是随机选的。让一个Agent完成工作,要理解指令,在长链条任务中不丢上下文,一步步推出方案,再用代码实现——恰好是Agent时代模型最高频被调用的三种能力。这三种能力的组合本身就是一个体系化的选择。混元的官方博客阐释了"实用"的三条原则,第一条就是能力体系化:不推崇"偏科",因为即使是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。
底座选择打哪几个点只是第一步,怎么训也变了。这可能是混元最重要的方法论转向:重点攻坚RL。
此前混元的后训练重度依赖SFT——用大量标注好的问答对教模型"看到这种输入就这样输出"。但据接近团队的人士透露,新版本做法截然不同,重点精力都在RL上。
区别可以这样理解:SFT给标准答案——"正确答案是A";RL只告诉模型好与不好,自己去推测为什么。前者让模型快速学会应对已知题型,后者教会模型面对陌生问题时自行判断。在真实场景里,用户的提问千奇百怪,不可能每一种都提前标注,RL的价值就在这里。
更关键的是,RL模式下,训练数据量可以非常大,持续训下去,不断地用真实复杂的任务把模型的上限拉高。
"各家的差异就是你的模型到底能接触到多少复杂业务——这就是生命力的来源。"一位业内人士评价。
这句话指向一个值得品味的远期含义。腾讯覆盖社交、游戏、内容、广告、生活服务等多样场景,其丰富度在全球范围内都属于第一梯队。一旦"场景-反馈-训练-更强模型-更多场景"的循环跑通,能量巨大。
当然,从"有场景"到"反馈真正回流为RL的训练燃料",中间还隔着数据合规、反馈标注、工程链路等多重问题——这是混元下一阶段真正要啃的硬骨头。但无论如何,重点关注RL是一条越跑越宽的路。
训练范式之外,还有一个更隐蔽但也许更深层的变化:场景需求从一开始就写进了技术方案。
混元团队内部的说法叫"联合设计"(Co-design)。过去比较典型的模式是:基模团队闷声训模型,训完交给产品业务团队;用得不顺,再下场帮业务一起调。可用性在末端补救,甚至不少产品优先选用外部开源模型。但混元这次做了一个重要变化——在强化框架搭建、数据策略、评估指标设计的早期,就建立了与业务方的Co-design机制。
元宝是一个典型的例子。Hy3 preview的研发过程中,元宝团队与模型团队做了深度的联合设计。元宝团队带进来的,是一套从真实用户行为中提炼出的多维评测体系——覆盖意图理解精准度、文本创作质量、深度搜索召回效果,比通用benchmark更贴近产品场景。同时,他们把用户反馈中沉淀下来的判断也注入了训练过程:文笔是否自然、情商是否到位、内容组织是否清晰、专业表达是否有分寸感。这些维度很难从模型侧自行定义,需要离用户近的人来提供标准。
在应用Hy3 preview的产品盲测中,元宝在写作、闲聊、搜索三个场景上效果体现得最明显。用户反馈中反复出现一个词:"活人感"。
这就是联合设计真正在做的事:"实用性"的定义,从基模团队单方面决定,变成和场景共同决定。
与之配套的是评估体系的转变。一方面,混元团队通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的"真实战斗力",另一方面,混元也开始引入真实业务场景来评估:在某条具体链路上,模型是否稳定、是否贴合语境、是否能理解用户的实际意图、能让用户感到自然——这些是"实用"的证据。而一旦评估被真实场景牵引,训练数据、强化策略、工具链设计都会被迫跟着改变。这也是为什么"实用"不只是一句口号——它正在反向重塑整个研发系统。
"实用"落到工程层面,还意味着必须在乎性价比。这个词听起来庸俗,但在Agent时代是严肃的硬约束。一个Coding Agent完成一个任务可能调用模型50到100次,Token消耗量是普通对话的5到30倍。中国信通院数据显示,国内日均Token调用量两年增长超过1400倍;Gartner则警告,单个Token价格在暴跌,但Agent总消耗量增长更快——Token越便宜用得越多,总成本反而可能上升。
Hy3 preview有295B总参、21B激活——模型内部有大量"专家",每次推理只激活其中一小部分。关键不在于专家多少,而在于路由网络能不能把问题精准分配给最合适的那个。从官方信息看,混元AI Infra做了全栈优化,同等成本下推理效率提升40%。一位业界人士说得直接:"推理成本降低,也会给元宝省下一批卡。"对腾讯的体量而言,单Token成本哪怕降10%,累积节省就是天文数字。
几个层面合在一起看,Hy3 preview的更大的意义,可能在于它搭起了一套围绕真实场景的实用性来定义目标、组织研发、评估结果的系统。据透露,作为重新起步的一个开始,混元也希望通过这次发布获得全面的用户体验反馈,用以提升Hy3正式版的性能。正式版仍在持续迭代,下一代模型也已启动生产——这个版本搭好的基础设施和跑通的流程,后续不用重建。
![]()
图注:代码能力评测
![]()
图注:Agent综合能力评测,Hy3 preview 展现出高性价比
罕见的加速度
方向对了,只是必要条件。在这个行业里,几乎不可能慢慢走在正确的路上,同样需要考验的是:速度。
Hy3 preview从预训练启动到模型发布,三个月完成。
而以行业实际节奏为参照,通常需要6个月以上。一个业界人士评价,"在三个月左右时间里一次性极致压缩,其实是极大的挑战。"
但所有人都知道,他们必须要完成这一项极限任务。
为此,他们做了一个决策:并行生产(而非传统的串行)。几条线同时拉起来。
开始正式训练的时间是1月31日。预训练开始的同时,后训练团队在小模型上做验证,全新的RL基础设施同步建设,到某个节点,业务链路同步适配。所有能并行的环节全部并行,严丝合缝咬合在一起。
中间穿过了春节——没有停工。卡在跑,人就跟着跑。有人凌晨三点起来让实验继续。"但凡有一点buffer,你都会想要节约出一点可能的试错空间。"
一个有意思的细节是,Agent训练时,在新的RL infra上首次投产应用,就长跑成功。但真正让这个团队高兴的是,这验证了他们的"solid"工作文化——如果每一步做得质量很高,就能带来一个好的结果。
熟悉行业的人知道这样的速度意味着什么,基本就是很难容忍重大的BUG或者回滚。这个过程就像经验老道的医生团队做一档高难度的手术——除了方法技巧,也得知道各种风险和意外,以及能快速应对。
而这个大规模的咬合过程,还伴随着一个组织的磨合的挑战,大量新人,来自不同公司,并带着各自的经验和方法论。
最终,在一种极限作战的状态中,这个团队都更深理解了彼此,比如姚顺雨常挂在嘴边的,做事要"solid";预训练的同学常说,"预训练就是debug"。
据了解,自去年12月底混元架构调整以来,整个组织在持续发生变化。其中一个举措是:正式取消管理层级头衔,试行负责人制。不叫总经理,不叫总监和组长——所有岗位名称简化为"某某方向负责人"。管理角色跟着业务走,不是一个固定身份:你今天带这个方向,就有管理标签;明天方向调了,标签跟着摘掉。
这种扁平化,在日常协作带来了一些非常具体的结果。比如,开会时,没人需要"向上管理"了。
一位参与跨部门协作的员工描述了他的直观体感:"不管你是什么角色,有问题会上直接提,当场拍掉。谁是责任人,马上就定。不需要层层汇报。"
这种扁平和做事导向的文化,肉眼可见地带来一种工作氛围的变化:"大家不是拼体力、拼加班——而是变成了怎么聪明、高效地做事。"
甚至跨部门合作都更顺畅了。Hy3 preview要上到产品线,"比如上元宝、CodeBuddy……模型同学跟产品侧一拉群,当天就推进。大家的思路很明确——以事为导向。"该内部人士说。
"因为整个腾讯都在加速的状态中。因为我们新建团队的文化基调,就是要把这事搞成。"
三四个月很难尽善尽美。
"bench表现挺好的,但它还没有到真实世界去被'毒打'过。"一位内部人士表达了她的担忧,但这也是混元先推出过程性版本的原因——更快更多获得真实世界反馈,才更有机会变得强大。
更重要的是,这个加速度是面向未来的。换句话说,只有迭代速度持续加快,混元在这个注定是长周期的AI竞赛中,才能得以持续改善。
一个既快又慢的新纪元
在AI竞赛中,有一个反直觉的规律:在任何一个时间截面上判断"谁赢了",几乎注定是错的。
2023年初所有人说Google完了,三年后王者归来,如今又重新追赶。2024年中Meta是开源之王,一年后翻车,再之后以全新面目重来。DeepSeek V3以极低成本震惊世界,三个月后行业又向前走了一大步,直至这几天又带来了惊人的"性价比"。领先和落后不断交替,没有谁能锁定赢面。
行业真正在奖励的,并非某一次发布的"最强",而是方向选择的正确性、持续迭代的能力、以及把模型能力转化为用户价值的效率。
Google用近三年证明了这一点。不仅是底座变强,更是Gemini和Google产品矩阵的深度整合;这一举措还在加码,今年首次设立了"首席AI架构师"一职,直接向皮查伊汇报,只干一件事——加速把AI模型整合进Google全产品线。Meta的Muse Spark从一开始就嵌入WhatsApp和Instagram,服务32亿用户。当底座能力日渐趋同,底座和场景的咬合深度就是长期胜负手。
Token经济学在加速这个趋势。中国大模型API价格在过去两年里已经下降了90%以上。当推理的边际成本趋近于零,单纯卖Token的商业模式注定不可持续。真正的价值在于Token被用来做什么——用在哪个场景、解决什么问题,这需要模型、场景和工程系统的深度咬合,而不是benchmark上多0.5%。
腾讯丰富的场景里,每天覆盖数以亿计的用户。这些场景产生的反馈密度和迭代驱动力,是纯做底座API的所团队不具备的。Hy3 preview在元宝和Workbuddy等十余个腾讯核心业务场景的先行落地,以及RL与复杂真实场景的相互依存——都指向这个长周期的竞争逻辑。
一位内部人士给了一个耐人寻味的比喻:"可以把它理解成一个清华毕业生。学完了,终于下山了。他行万里路的起点,就是要充分在各种场景里深度沉淀。"
不是出道即巅峰——是出道即起点。
如果它是一颗新种子,如今似乎已经证明它能发芽。接下来的问题是——土壤里的养分能不能顺畅滋养它。
毕竟AI竞争,不再只是模型的单一竞争,更是模型能力、场景理解、工程能力、产品能力和上下文深度的乘数效应。真正的壁垒在别人不容易复制的场景积累和系统能力里。
所有人都在同时奔跑,真正的考验还在后面。
在面向未来漫长的旅程中,大模型仍在一种"各领风骚几个月"的阶段。就像Google迎头赶上,不久后又有Claude强劲崛起,在编码智能体的新战场上,定义了方向,OpenAI紧随其后,布林不得不再次启动战时机制。Meta的新状态保持多久,也不得而知。
没有永远的领先者,也没有永远的落后者。但确定的是,巨头一旦走在正确的道路上,加速度会比想象的更快。







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论