实测混元Hy3 preview:混元再出发,中型模型的务实之战

AGI
整个大模型行业转向的一个缩影。

编者按:本文为 Hy3 preview 评测,评测环境为WorkBuddy,评测内容基于真实任务执行结果。本次共测试三个场景:事实审计员、文档可视化、深度研究。

Hy3 preview终于来了。

刚刚,腾讯混元宣布发布 Hy3 preview ,Hy3 preview 发布前的几个小时,混元还悄悄换了一个新Logo。对于一个强调“重新出发”的团队来说,这个细节也不算意外。

“帮我查一下最近三个月AI领域的高管变动,对比5个不同背景的信源,列出已知事实和矛盾点,给出信度评分。”

根据腾讯内部对Hy3 preview 的功能定位——多步骤、多信源、需自主规划,笔者自设了这样一句测试指令。模型在约7分钟内完成了多轮搜索、信息交叉验证和结构化输出。

这只是其中一个典型场景。笔者本次共测试了三个场景,分别是多信源核验、文档可视化、深度研究三个维度,从不同切面评估这款产品在知识工作场景中的实用性和边界。

背景与产品解析

2025年以来,中国大模型厂商的叙事出现了一次集体转向。头部厂商相继从“对标GPT-4”“刷新基准测试榜单”的军备竞赛,转向“在真实业务场景中跑通”“降低单位任务成本”的务实路径。

腾讯混元团队在这一背景下,选择了一个明确的产品定位:不追参数第一,聚焦实用性和性价比

混元团队近期多次提及“下半场”概念,首席AI科学家姚顺雨曾表示:“AI发展的上半场,核心是训练大于评估;下半场,评估大于训练。”姚顺雨认为,上半场的竞争在于谁能把模型训练得更大、更强,成为顶级的“做题家”;而下半场的竞争在于谁能让模型在真实业务场景、真实系统中经得起检验,成为真正的“上下文学习者”——即使用户给足了信息,模型依然需要具备从中学习并应用的能力。

在Hy3 preview发布时,姚顺雨进一步表示:“Hy3 preview是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升Hy3正式版的实用性。”

这一理念直接指向了当前大模型落地的核心痛点:不是模型不够强,而是强在“记忆”、弱在“应用”。

本次腾讯发布的 Hy3 preview,正是混元团队在这一理念下推出的第一个版本——腾讯混元在团队、架构、基础设施重新整合后的产物

根据官方披露,2026年2月,腾讯混元重建了预训练和强化学习的基础设施,并确立了模型追求实用性的三个原则:其一,能力体系化,不推崇"偏科",即使是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同;其二,评测真实性,主动跳出易被"刷榜"的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估模型的"真实战斗力";其三,性价比追求,深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能"用得起、用得好"。

根据官方披露的信息,Hy3 preview 的核心参数如下:

295B总参/21B激活参数的组合,意味着 Hy3 preview 处于“中型模型”区间。相比千亿参数以上的超大模型,这一尺寸在部署成本和推理效率上具备明显优势。

MoE(Mixture of Experts)的核心逻辑是“按需激活”——每次推理只调用部分专家网络。这一设计可以实现“参数量大但推理成本可控”的效果,符合“实用性”和“性价比”的定位。

Hy3 preview 声称实现了快慢思考的融合,即在简单任务上快速响应,在复杂任务上启动深度推理。256K(约25万Token)的上下文窗口,在同尺寸模型中处于较高水平。官方将其定位为"混元迄今最智能的模型",Hy3 preview 于4月23日正式发布并同步开源,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅提升。

实测验证

本次评测选取三个典型场景,事实审计员、文档可视化和深度研究。

事实审计员

任务类型:多信源交叉核验

测试指令

调研关于“最近三个月AI领域高管变动”的传闻,对比至少5个不同背景的权威信源,列出已知事实和逻辑冲突点,并给出信度评分。

执行结果

执行耗时:约7分钟

信源覆盖:CNBC(权威财经)、WIRED(科技深度)、The Verge(科技媒体)、钛媒体等(中文科技财经)、Mint(国际科技)

评测维度评分

实测发现的主要事件

1. OpenAI高管离职潮(高信度):Kevin Weil、Bill Peebles、Srinivas Narayanan三人于4月中旬同日离职,Sora关停,Prism项目终止并入Codex

2. xAI创始人集体离职(中等信度):2026年2-3月,11位联合创始人全部离职

3. 理想汽车高管变动(中等信度):郎咸朋于2026年2月14日离职

4. 苹果CEO更替(待验证):约翰·特纳斯接替库克,英文主流媒体未广泛报道,信源可靠性存疑

结论:模型在多信源检索和结构化输出方面表现稳定,但在信息交叉验证时存在“收得多、核得少”的倾向——对可疑信息(如"苹果CEO更替"缺乏英文信源佐证)未能主动标注风险。但同时也未能识别苹果CEO更替这一信息实际上可信度较高,该信息苹果官网已经进行了官宣。这一能力短板在严肃的事实核查场景中需要关注。

文档可视化

任务类型:财报PDF转动态仪表盘

测试指令

将附件的腾讯2025年年度财务报告PDF转化为一个深色主题HTML动态仪表盘,具体要求如下:

核心约束:

严格基于年报原文数据,禁止引入任何外部信息

如年报中未提及某项数据,明确标注"年报未披露"而非虚构

所有数字以年报为准,不进行二次计算

数据分析要求:

提取近三年核心财务数据(营收/净利润/毛利率),做三年对比

分析主要业务板块的收入结构(按业务线拆分)

标注关键财务指标的变化趋势(增长/下降/持平)

视觉要求:

深色主题,专业金融风格(参考彭博终端配色)

数字入场动画:关键数据从0滚动增长至实际值(数字脉动效果)

交互效果:鼠标悬停关键指标时显示详细数据(决策舱扫描效果)

包含数据来源标注:每项数据标注对应年报页码

输出要求:

单HTML文件,内嵌CSS和JavaScript

响应式设计,适配PC端展示

代码结构清晰,便于后续修改

执行结果

执行耗时:约20分钟

输出成果:腾讯2025年年报HTML动态仪表盘

成果截图(部分):

评测维度评分

结论:AI辅助财经内容生产正从“文本生成”向“数据可视化自动化”进阶。该工具在数据处理、视觉呈现、交互设计三个层面的完成度已达到可发布至财经媒体报道的合格线。推荐指数4.5/5.0。

可优化方向

三年对比数据可视化不足,缺乏长期趋势折线图;

业务分部占比缺乏饼图或堆叠柱状图;

移动端适配有待完善。

深度研究

任务类型:产业研究报告生成

测试指令

以“AI训练成本下降趋势及其对产业格局的影响”为主题,进行深度研究分析,输出结构化报告,要求覆盖成本驱动因素、数据支撑、产业格局影响,投资机会与风险、未来趋势判断,区分事实陈述和观点分析,对关键数据注明来源。

执行结果

执行耗时:约5分钟

信源覆盖:共引用6个一手信源,包括Stanford HAI 2025报告、Epoch AI研究论文(arXiv:2405.21015)、央视新闻报道、中国信通院报告等

报告规模:约4500字,包含3张数据表格、6个主要章节、20+个细分论点

报告地址:Tencent Cloud CodeBuddy

评测维度评分

结论:模型在深度研究的框架搭建、信源检索与标注、结构化输出上表现优秀,能够生成符合专业标准的研究报告。但在产业洞察的深度(如对中国AI芯片厂商的具体分析)、风险提示的全面性上仍有提升空间。

适用场景建议

✅ 快速搭建研究报告框架

✅ 检索和整理公开信源

✅ 生成结构化分析报告

⚠️ 需谨慎:具体投资标的推荐、未公开数据的推测、前瞻性判断(需人工复核)

产品组合拳:模型+Agent框架

根据腾讯内部测试的公开反馈,Hy3 preview 在以下四个纬度获得了相对积极的评价:

在国内大模型竞争格局中,混元本次的定位可以概括为:“不做第一,但求好用”。从参数规模看,295B总参/21B激活参数定位于中等尺寸区间,与“大杯”产品存在差异,但规模控制带来了更好的推理效率。

从场景定位看,Coding和Agent场景是明确的主打方向。这一选择与Agent经济的崛起趋势相吻合——当模型的价值越来越多地体现在“作为Agent的大脑”而非“直接回答用户问题”时,响应速度、任务完成率、多步骤稳定性,比单纯的基准测试分数更重要。

从生态角度看,混元与WorkBuddy的结合构成了“模型+Agent框架”的组合,模型能力可以在真实业务场景中持续锤炼,场景反馈可以持续反哺模型优化。

官方数据显示,在CodeBuddy与WorkBuddy产品上,Hy3 preview首token延迟降低54%、端到端时长降低47%、成功率提升至99.99%+。实际用户环境中,已稳定驱动最长495步的复杂Agent工作流,覆盖文档处理、数据分析、知识检索、MCP工具链编排等多样化办公场景。整体推理效率提升40%,成本相比上一代模型大幅下降。

在商业化定价上,腾讯云TokenHub平台显示,Hy3 preview输入价格最低1.2元/百万tokens,输出价格最低4元/百万tokens,并推出个人版最低28元/月的Token Plan套餐——这为评测稿此前提及的"性价比优势"提供了可量化的基准参照。

目前,Hy3 preview已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等产品首发上线,微信公众号、和平精英、腾讯新闻等多个主线产品也在陆续接入。

Hy3 preview 的发布,更像是一个信号,而非一个结论。它标志着腾讯混元在经历团队重组、架构重构后,选择了一条更务实的路径——不再追逐榜单上的“第一”,而是追求实际场景中的“好用”。

在本文测试未涉及到的性价比中,官方公布的内部测试可作为参考:腾讯内部测试显示,腾讯文档AI PPT生成成功率提升20%、耗时缩短20%;和平精英AI NPC角色扮演稳定性获得业务团队高度评价;QQ AI助手数学推理表现提升尤为明显;元宝深度Co-Design后用户意图理解与内容质量全面提升。

上述数据为混元“性价比优势”提供了一定的内部佐证,但跨厂商的横向对比仍需在后续评测中进一步验证。

结语

从更宏观的视角看,Hy3 preview 的出现,是整个大模型行业转向的一个缩影。

过去两年,国内外的大模型竞争本质上是一场基础设施竞赛——谁能训得更大、算得更快、数据更多,谁就站在了排行榜的前列。但这场竞赛正在迎来边际效益递减的节点:当GPT-4级别的能力已经"白菜化",当推理成本以每年数倍的速度下降,纯粹的参数军备竞赛开始失去意义

下一个竞争维度,正在转向任务完成率、工具调用稳定性、长程推理的可靠性——换句话说,是“能不能真正干活”,而不是“能不能在考卷上拿高分”。这恰好是 Hy3 preview 所押注的方向。

对于腾讯混元来说,这次重新出发面临的挑战不只是技术层面的。在竞争对手已积累大量真实用户反馈的背景下,如何快速积累高质量的任务数据、如何在腾讯庞大的业务生态中找到“模型锤炼”的最佳路径,将直接决定混元能否在下半场建立真正的差异化。

WorkBuddy 作为面向知识工作者的 Agent 框架,理论上是一个理想的“练兵场”——用户的真实任务场景足够复杂、反馈足够直接。但换个角度来看,“模型在框架中不断进化”这一愿景的实现,还取决于数据闭环的质量、人工反馈的密度,以及腾讯是否愿意在这条路上保持足够的耐心。

Hy3 preview 是第一步,能否兑现“务实主义”的承诺,要看后续正式版本的真实表现——以及它在更大规模用户场景中经受检验之后的样子。(本文首发钛媒体APP,作者 | AGI Signal,编辑 | 秦聪慧)

作品声明:内容由AI生成
本文系作者 AGI-Signal 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

19:23

好未来2026财年净利润5.31亿美元

19:18

3月广东金融机构新发放的贷款利率平均为3.06%

19:17

SWIFT:3月人民币位居全球第五大支付货币,占比3.10%

19:16

值得买:2025年归母净利润8651.65万元,同比增长14.99%

19:14

星宸科技:一季度净利润同比增长330.29%,各条产品线出货量同比均保持稳定增长

19:14

生益电子:2025年净利润同比增长344%,拟10派6元

19:13

君实生物:股东上海檀英及贺铭拟合计减持不超2.09%股份

19:12

深南电路:拟投46亿元建设高速高密、高多层电子电路产品项目

19:11

深南电路:第一季度净利润同比增长73%,主要系业务订单增加

19:11

厦门钨业:拟与马坑矿业签订钼精矿购销战略合作框架协议

19:10

厦门钨业:第一季度净利润同比增长189%,硬质合金、电池材料等重点产品销量稳步增长

19:10

俄总统新闻秘书:G20峰会俄方参会代表尚未确定

19:08

云南铜业:第一季度净利润同比增长7.93%

19:08

中微半导:第一季度净利润同比增长48.89%

19:07

路德科技:第一季度净利润同比增长780.45%

19:01

国家发改委:《碳达峰碳中和综合评价考核办法》设置了包括5项控制指标和9项支撑指标的指标体系

18:59

润和软件:一季度归母净利润7725.67万元,同比增长147.62%

18:58

三环集团:第一季度净利润同比增长48.48%,MLCC产品客户认可度提升光通信行业需求增长

18:55

老凤祥:一季度净利润5.47亿元,同比下降10.76%

18:54

超微电脑美股盘前跌超10%

扫描下载App