腾讯大模型重回牌桌了吗？-钛媒体官方网站

文 / 山杉

追赶者的四月

4月23日，腾讯混元Hy3 preview发布并开源。几个小时后，OpenAI深夜扔出GPT-5.5。不到24小时，DeepSeek V4预览版跟着上线，终于交出了新一代旗舰模型。

这只是一个缩影。这个4月，全球AI大模型依然如过江之鲫、频频上新。其中有三家特别值得留意：

首先是Meta。4月8号那天扎克伯格大概是长舒了一口气——投入不少却始终差口气的Meta AI，终于凭最新大模型Muse Spark打了个翻身仗，其性能表现出色，股价当日大涨6.5%；还有Google，Gemini 3.1系列继续保持强势，在各方面都有拉开差距的迹象——尽管它在另一些地方又亮起了红灯。然后是国内巨头腾讯，带着它刚刚发布的Hy3 preview。

之所以将它们类比，在于这三个各自领域的王者，都在AI大战中经历了一段颇受质疑的时期。

最难受的当然是Google，毕竟连AI基础架构Transformer都是它发明的。三年前，OpenAI用它的技术路线搞出ChatGPT，Google被迫应战、仓促推出大模型Bard，结果大失水准，在演示中连韦伯望远镜的常识都搞错，公司市值当即蒸发千亿美元，甚至一度有人认为Google大势已去。

Meta更戏剧化，经历过战略错判、内部斗争，也吃过惨痛教训——去年4月高调发布LLaMA 4，号称超越DeepSeek V3，结果不到两天就沦为一颗"哑弹"。部分测试数据低到离谱，随后更被曝出刷榜丑闻——提交给排行榜的版本，和公开给开发者的版本不是同一个模型。为此，其AI研究副总裁宣布离职。

跟上述两家相比，腾讯的遭遇倒不至于那么剧烈，但"腾讯慢了"、"腾讯AI到底行不行"的疑问从未停止过。

此前，混元核心团队背景多集中在计算机视觉、机器学习等方面，而非大语言模型最核心的方向。过去三年，混元受困于组织分散，数据和Infra等基础设施薄弱，认知与全球顶尖团队有较大差距，其基础模型给外界留下的印象是，"四平八稳，缺乏特色"。在2026年初的腾讯年会上，马化腾也直言"动作慢了"。

大模型技术固然是一场马拉松式的竞争，但面对一日千里、纷繁复杂的态势，很难没有焦虑——尤其是必须直面一个问题：是否走对了方向。

面对严峻的局面，Meta和Google做了同一件事：自我纠偏、痛苦地聚焦。

Google将Brain和DeepMind两个团队合并——此前这两个团队都很优秀，却各自为战。之后是大举投入，从Gemini 1.0的低于预期，到1.5 Pro方向回正，到3.1 Pro多维度领先——近三年持续迭代，Gemini的AI聊天机器人市场份额已从不到6%攀升至约20%以上。

纠偏是持续的过程。就在这个4月，红灯在谷歌再一次亮起，联合创始人布林亲自挂帅组建了一支"编码突击队"，在当下火热的编码智能体新战场，重新追赶。

而经历过短暂的慌乱，Meta去年重组AI部门，成立超级智能实验室（MSL），并豪掷重金延揽顶级人才。九个月后交出了Muse Spark，其风格和LLaMA 4截然不同，不喊"SOTA"，主动标明弱项，但在图表理解和医疗推理上等方面表现突出，token效率极高。一个因为追求数字而翻车的公司，如今选择了克制和场景聚焦。终于重新赢得了外界的认可。

反观腾讯，它过去三年似乎经历了Meta、Google故事的前半段。到了这最近半年，腾讯内部也密集经历了重建、重构和聚焦：延揽前OpenAI研究员姚顺雨出任首席AI科学家，AI Lab撤销，收拢AI研发力量，招揽一批顶级人才，重建研发架构和基础设施……几个月之后，推出Hy3 preview。

据了解，这一模型进行了底层重构，"总参数295B，激活参数21B，最大支持256K上下文长度，在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。"

新模型很惊艳吗？在1T参数以上巨型模型林立的当下，很难这么评价，毕竟还只是一个不到300B的Preview版。但对腾讯自身来讲，是一个转变的信号弹。模型发布后，外界立刻将它与主流模型进行了比较，感知最强的是其实用性和体验的改善。一位大模型测评博主写道：Hy3终于如愿进入了国模第一梯队。更直接的信号是，Hy3 preview上线即成为腾讯十余款核心产品的首选模型，这在混元历史上是第一次。有博主直言："先上桌，再追赶，这一步算是迈出来"。

对大模型竞争来说，最重要的可能不是这个版本的表现"数据"——Meta和Google证明了，落后了的巨头只要敢于自我变革、重新出发，走到正确的路上，极大概率会靠着独特的优势加速兑现其潜力的。

于是，值得一问的问题是：腾讯开始走上正确的道路了吗？

不是迭代，是推倒重来

"Hy3 preview是混元大模型重建的第一步。"在Hy3 preview发布的官方Blog中，腾讯首席AI科学家、AI Infra部及大语言模型部负责人姚顺雨写道。很显然，Hy3 preview不是在上一个版本基础上修修补补。

据了解，Hy3 preview是从2026年1月底左右才开始起步，组织架构、基础设施基本上重建了一遍。原有的训练框架没有沿用，Agent系统几乎从零搭建。一位内部人士用了一个形象的说法：这不是翻新装修，是把房子拆了重盖。

"重训一个底座"到底意味着什么？

首先需要海量优质数据，经过清洗、筛选、去重、分类、配比——数据比例配错了，模型可能中文好但英文差，或者会聊天但不会写代码。

然后是大规模张GPU组成集群，稳定运行几十天甚至几个月，中间任何一张卡出故障、任何一次通信中断都可能导致训练回滚——Meta训LLaMA 3.1 405B，16384张H100跑了54天，期间遭遇419次意外中断，平均三小时一次，而这还是在成熟的训练基础设施上。

训完底座只完成了一半，之后还要通过强化学习，把一个"读了很多书但不会说人话、不会干活"的毛坯打磨成能和人正常交互的产品。

混元面对的恰恰是重构级别的难度——基础设施全新搭建，训练范式切换，团队大规模大量新人加入。

既然难度这么大，也已经有了上一代模型，为什么不在已有基础上迭代，非要从头来过？而且是在所有人都在加速奔跑的时候。

答案可能和直觉相反。看起来推倒重来充满不确定性，实则恰恰是为了获得确定性。

混元Hy3 preview选择的技术路线——MoE架构、强化学习驱动的后训练等等，很多是被多家头部团队反复验证过的成熟方案。曾经DeepSeek V3用MoE做到了业界标杆，OpenAI和Anthropic早已把强化学习作为后训练的核心引擎，Google和Meta都在把底座与应用场景越拉越近。选择它们的风险反而是可控的。

Google当年面对的也是同样的重构难题。Brain和DeepMind分别都很强，但这个组织形态跑不出统一的大模型产品。皮查伊选择强行合并，短期代价是Gemini 1.0低于预期，但这个决定让Google获得了一个统一的底座和一致的迭代方向——之后所有加速都建立在这个基础上。Meta更极端，LLaMA 4翻车之后，扎克伯格没有在原来基础上修补，而是另起炉灶，连品牌都换了。

重建的本质，是用短期的阵痛换取长期的确定性——让自己站到一条被验证过的、正确的道路上，为混元更大参数的模型迭代打好基础。

这或许便是混元的选择。那么具体来说，这条路通向哪里？

重建一条"实用"的道路

如果用一个词概括Hy3 preview的重构方向，大概是"实用"。

这两个字听起来朴素，但在大模型行业的语境里，其实是一个鲜明的立场选择。

以前很多大模型团队默认的叙事是线性的：先把模型参数做大、做到更聪明、更通用，榜单更高；然后再谈落地、可用、体验。但混元没有选择"先极致智能再可用"的从众路线，而是从源头就把"实用性"塞进整个链路里——从数据理解、预训练，到强化学习，再到评估——都是围绕真实场景的实用性来构建。

这个方向似乎正在变成行业共识。同一天发布的GPT-5.5，定位从"回答"转向"执行"；DeepSeek V4万亿参数开源，核心方向也聚焦Agent。

对混元而言，这种"有用哲学"首先体现在底座的能力选择上：聚焦腾讯社交、游戏、广告等核心业务场景中最需要的模型能力，做体系化建设。

复杂推理——Agent时代对模型最基本的要求是"能想"：面对复杂任务能规划、能拆解、能一步步推导。

指令遵循与上下文学习——长期以来国产模型的痛点。举个具体例子：多人群聊到第100轮，中间插了几个人说话，准确识别"某句话是在回复两条之前的那条"——人类做得到，大多数模型做不到。这恰恰是Hy3 preview此次的突破，直接服务于元宝和元宝派的真实交互场景。

代码与智能体能力——也许是最出乎意料的进步。此前混元在Coding领域几乎没有存在感，之所以高优先级投入，应该和腾讯自身的产品布局直接相关：今年推出的WorkBuddy、QClaw等智能体产品，都需要底座在代码生成和Agent协作上过关。

三个方向不是随机选的。让一个Agent完成工作，要理解指令，在长链条任务中不丢上下文，一步步推出方案，再用代码实现——恰好是Agent时代模型最高频被调用的三种能力。这三种能力的组合本身就是一个体系化的选择。混元的官方博客阐释了"实用"的三条原则，第一条就是能力体系化：不推崇"偏科"，因为即使是代码智能体的单一应用，也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。

底座选择打哪几个点只是第一步，怎么训也变了。这可能是混元最重要的方法论转向：重点攻坚RL。

此前混元的后训练重度依赖SFT——用大量标注好的问答对教模型"看到这种输入就这样输出"。但据接近团队的人士透露，新版本做法截然不同，重点精力都在RL上。

区别可以这样理解：SFT给标准答案——"正确答案是A"；RL只告诉模型好与不好，自己去推测为什么。前者让模型快速学会应对已知题型，后者教会模型面对陌生问题时自行判断。在真实场景里，用户的提问千奇百怪，不可能每一种都提前标注，RL的价值就在这里。

更关键的是，RL模式下，训练数据量可以非常大，持续训下去，不断地用真实复杂的任务把模型的上限拉高。

"各家的差异就是你的模型到底能接触到多少复杂业务——这就是生命力的来源。"一位业内人士评价。

这句话指向一个值得品味的远期含义。腾讯覆盖社交、游戏、内容、广告、生活服务等多样场景，其丰富度在全球范围内都属于第一梯队。一旦"场景-反馈-训练-更强模型-更多场景"的循环跑通，能量巨大。

当然，从"有场景"到"反馈真正回流为RL的训练燃料"，中间还隔着数据合规、反馈标注、工程链路等多重问题——这是混元下一阶段真正要啃的硬骨头。但无论如何，重点关注RL是一条越跑越宽的路。

训练范式之外，还有一个更隐蔽但也许更深层的变化：场景需求从一开始就写进了技术方案。

混元团队内部的说法叫"联合设计"（Co-design）。过去比较典型的模式是：基模团队闷声训模型，训完交给产品业务团队；用得不顺，再下场帮业务一起调。可用性在末端补救，甚至不少产品优先选用外部开源模型。但混元这次做了一个重要变化——在强化框架搭建、数据策略、评估指标设计的早期，就建立了与业务方的Co-design机制。

元宝是一个典型的例子。Hy3 preview的研发过程中，元宝团队与模型团队做了深度的联合设计。元宝团队带进来的，是一套从真实用户行为中提炼出的多维评测体系——覆盖意图理解精准度、文本创作质量、深度搜索召回效果，比通用benchmark更贴近产品场景。同时，他们把用户反馈中沉淀下来的判断也注入了训练过程：文笔是否自然、情商是否到位、内容组织是否清晰、专业表达是否有分寸感。这些维度很难从模型侧自行定义，需要离用户近的人来提供标准。

在应用Hy3 preview的产品盲测中，元宝在写作、闲聊、搜索三个场景上效果体现得最明显。用户反馈中反复出现一个词："活人感"。

这就是联合设计真正在做的事："实用性"的定义，从基模团队单方面决定，变成和场景共同决定。

与之配套的是评估体系的转变。一方面，混元团队通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的"真实战斗力"，另一方面，混元也开始引入真实业务场景来评估：在某条具体链路上，模型是否稳定、是否贴合语境、是否能理解用户的实际意图、能让用户感到自然——这些是"实用"的证据。而一旦评估被真实场景牵引，训练数据、强化策略、工具链设计都会被迫跟着改变。这也是为什么"实用"不只是一句口号——它正在反向重塑整个研发系统。

"实用"落到工程层面，还意味着必须在乎性价比。这个词听起来庸俗，但在Agent时代是严肃的硬约束。一个Coding Agent完成一个任务可能调用模型50到100次，Token消耗量是普通对话的5到30倍。中国信通院数据显示，国内日均Token调用量两年增长超过1400倍；Gartner则警告，单个Token价格在暴跌，但Agent总消耗量增长更快——Token越便宜用得越多，总成本反而可能上升。

Hy3 preview有295B总参、21B激活——模型内部有大量"专家"，每次推理只激活其中一小部分。关键不在于专家多少，而在于路由网络能不能把问题精准分配给最合适的那个。从官方信息看，混元AI Infra做了全栈优化，同等成本下推理效率提升40%。一位业界人士说得直接："推理成本降低，也会给元宝省下一批卡。"对腾讯的体量而言，单Token成本哪怕降10%，累积节省就是天文数字。

几个层面合在一起看，Hy3 preview的更大的意义，可能在于它搭起了一套围绕真实场景的实用性来定义目标、组织研发、评估结果的系统。据透露，作为重新起步的一个开始，混元也希望通过这次发布获得全面的用户体验反馈，用以提升Hy3正式版的性能。正式版仍在持续迭代，下一代模型也已启动生产——这个版本搭好的基础设施和跑通的流程，后续不用重建。

图注：代码能力评测

图注：Agent综合能力评测，Hy3 preview 展现出高性价比

罕见的加速度

方向对了，只是必要条件。在这个行业里，几乎不可能慢慢走在正确的路上，同样需要考验的是：速度。

Hy3 preview从预训练启动到模型发布，三个月完成。

而以行业实际节奏为参照，通常需要6个月以上。一个业界人士评价，"在三个月左右时间里一次性极致压缩，其实是极大的挑战。"

但所有人都知道，他们必须要完成这一项极限任务。

为此，他们做了一个决策：并行生产（而非传统的串行）。几条线同时拉起来。

开始正式训练的时间是1月31日。预训练开始的同时，后训练团队在小模型上做验证，全新的RL基础设施同步建设，到某个节点，业务链路同步适配。所有能并行的环节全部并行，严丝合缝咬合在一起。

中间穿过了春节——没有停工。卡在跑，人就跟着跑。有人凌晨三点起来让实验继续。"但凡有一点buffer，你都会想要节约出一点可能的试错空间。"

一个有意思的细节是，Agent训练时，在新的RL infra上首次投产应用，就长跑成功。但真正让这个团队高兴的是，这验证了他们的"solid"工作文化——如果每一步做得质量很高，就能带来一个好的结果。

熟悉行业的人知道这样的速度意味着什么，基本就是很难容忍重大的BUG或者回滚。这个过程就像经验老道的医生团队做一档高难度的手术——除了方法技巧，也得知道各种风险和意外，以及能快速应对。

而这个大规模的咬合过程，还伴随着一个组织的磨合的挑战，大量新人，来自不同公司，并带着各自的经验和方法论。

最终，在一种极限作战的状态中，这个团队都更深理解了彼此，比如姚顺雨常挂在嘴边的，做事要"solid"；预训练的同学常说，"预训练就是debug"。

据了解，自去年12月底混元架构调整以来，整个组织在持续发生变化。其中一个举措是：正式取消管理层级头衔，试行负责人制。不叫总经理，不叫总监和组长——所有岗位名称简化为"某某方向负责人"。管理角色跟着业务走，不是一个固定身份：你今天带这个方向，就有管理标签；明天方向调了，标签跟着摘掉。

这种扁平化，在日常协作带来了一些非常具体的结果。比如，开会时，没人需要"向上管理"了。

一位参与跨部门协作的员工描述了他的直观体感："不管你是什么角色，有问题会上直接提，当场拍掉。谁是责任人，马上就定。不需要层层汇报。"

这种扁平和做事导向的文化，肉眼可见地带来一种工作氛围的变化："大家不是拼体力、拼加班——而是变成了怎么聪明、高效地做事。"

甚至跨部门合作都更顺畅了。Hy3 preview要上到产品线，"比如上元宝、CodeBuddy……模型同学跟产品侧一拉群，当天就推进。大家的思路很明确——以事为导向。"该内部人士说。

"因为整个腾讯都在加速的状态中。因为我们新建团队的文化基调，就是要把这事搞成。"

三四个月很难尽善尽美。

"bench表现挺好的，但它还没有到真实世界去被'毒打'过。"一位内部人士表达了她的担忧，但这也是混元先推出过程性版本的原因——更快更多获得真实世界反馈，才更有机会变得强大。

更重要的是，这个加速度是面向未来的。换句话说，只有迭代速度持续加快，混元在这个注定是长周期的AI竞赛中，才能得以持续改善。

一个既快又慢的新纪元

在AI竞赛中，有一个反直觉的规律：在任何一个时间截面上判断"谁赢了"，几乎注定是错的。

2023年初所有人说Google完了，三年后王者归来，如今又重新追赶。2024年中Meta是开源之王，一年后翻车，再之后以全新面目重来。DeepSeek V3以极低成本震惊世界，三个月后行业又向前走了一大步，直至这几天又带来了惊人的"性价比"。领先和落后不断交替，没有谁能锁定赢面。

行业真正在奖励的，并非某一次发布的"最强"，而是方向选择的正确性、持续迭代的能力、以及把模型能力转化为用户价值的效率。

Google用近三年证明了这一点。不仅是底座变强，更是Gemini和Google产品矩阵的深度整合；这一举措还在加码，今年首次设立了"首席AI架构师"一职，直接向皮查伊汇报，只干一件事——加速把AI模型整合进Google全产品线。Meta的Muse Spark从一开始就嵌入WhatsApp和Instagram，服务32亿用户。当底座能力日渐趋同，底座和场景的咬合深度就是长期胜负手。

Token经济学在加速这个趋势。中国大模型API价格在过去两年里已经下降了90%以上。当推理的边际成本趋近于零，单纯卖Token的商业模式注定不可持续。真正的价值在于Token被用来做什么——用在哪个场景、解决什么问题，这需要模型、场景和工程系统的深度咬合，而不是benchmark上多0.5%。

腾讯丰富的场景里，每天覆盖数以亿计的用户。这些场景产生的反馈密度和迭代驱动力，是纯做底座API的所团队不具备的。Hy3 preview在元宝和Workbuddy等十余个腾讯核心业务场景的先行落地，以及RL与复杂真实场景的相互依存——都指向这个长周期的竞争逻辑。

一位内部人士给了一个耐人寻味的比喻："可以把它理解成一个清华毕业生。学完了，终于下山了。他行万里路的起点，就是要充分在各种场景里深度沉淀。"

不是出道即巅峰——是出道即起点。

如果它是一颗新种子，如今似乎已经证明它能发芽。接下来的问题是——土壤里的养分能不能顺畅滋养它。

毕竟AI竞争，不再只是模型的单一竞争，更是模型能力、场景理解、工程能力、产品能力和上下文深度的乘数效应。真正的壁垒在别人不容易复制的场景积累和系统能力里。

所有人都在同时奔跑，真正的考验还在后面。

在面向未来漫长的旅程中，大模型仍在一种"各领风骚几个月"的阶段。就像Google迎头赶上，不久后又有Claude强劲崛起，在编码智能体的新战场上，定义了方向，OpenAI紧随其后，布林不得不再次启动战时机制。Meta的新状态保持多久，也不得而知。

没有永远的领先者，也没有永远的落后者。但确定的是，巨头一旦走在正确的道路上，加速度会比想象的更快。