编者按:本文为 Hy3 preview 评测,评测环境为WorkBuddy,评测内容基于真实任务执行结果。本次共测试三个场景:事实审计员、文档可视化、深度研究。
Hy3 preview终于来了。
刚刚,腾讯混元宣布发布 Hy3 preview ,Hy3 preview 发布前的几个小时,混元还悄悄换了一个新Logo。对于一个强调“重新出发”的团队来说,这个细节也不算意外。
![]()
“帮我查一下最近三个月AI领域的高管变动,对比5个不同背景的信源,列出已知事实和矛盾点,给出信度评分。”
根据腾讯内部对Hy3 preview 的功能定位——多步骤、多信源、需自主规划,笔者自设了这样一句测试指令。模型在约7分钟内完成了多轮搜索、信息交叉验证和结构化输出。
这只是其中一个典型场景。笔者本次共测试了三个场景,分别是多信源核验、文档可视化、深度研究三个维度,从不同切面评估这款产品在知识工作场景中的实用性和边界。
背景与产品解析
2025年以来,中国大模型厂商的叙事出现了一次集体转向。头部厂商相继从“对标GPT-4”“刷新基准测试榜单”的军备竞赛,转向“在真实业务场景中跑通”“降低单位任务成本”的务实路径。
腾讯混元团队在这一背景下,选择了一个明确的产品定位:不追参数第一,聚焦实用性和性价比。
混元团队近期多次提及“下半场”概念,首席AI科学家姚顺雨曾表示:“AI发展的上半场,核心是训练大于评估;下半场,评估大于训练。”姚顺雨认为,上半场的竞争在于谁能把模型训练得更大、更强,成为顶级的“做题家”;而下半场的竞争在于谁能让模型在真实业务场景、真实系统中经得起检验,成为真正的“上下文学习者”——即使用户给足了信息,模型依然需要具备从中学习并应用的能力。
![]()
在Hy3 preview发布时,姚顺雨进一步表示:“Hy3 preview是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升Hy3正式版的实用性。”
这一理念直接指向了当前大模型落地的核心痛点:不是模型不够强,而是强在“记忆”、弱在“应用”。
本次腾讯发布的 Hy3 preview,正是混元团队在这一理念下推出的第一个版本——腾讯混元在团队、架构、基础设施重新整合后的产物。
根据官方披露,2026年2月,腾讯混元重建了预训练和强化学习的基础设施,并确立了模型追求实用性的三个原则:其一,能力体系化,不推崇"偏科",即使是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同;其二,评测真实性,主动跳出易被"刷榜"的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估模型的"真实战斗力";其三,性价比追求,深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能"用得起、用得好"。
![]()
根据官方披露的信息,Hy3 preview 的核心参数如下:
![]()
295B总参/21B激活参数的组合,意味着 Hy3 preview 处于“中型模型”区间。相比千亿参数以上的超大模型,这一尺寸在部署成本和推理效率上具备明显优势。
MoE(Mixture of Experts)的核心逻辑是“按需激活”——每次推理只调用部分专家网络。这一设计可以实现“参数量大但推理成本可控”的效果,符合“实用性”和“性价比”的定位。
Hy3 preview 声称实现了快慢思考的融合,即在简单任务上快速响应,在复杂任务上启动深度推理。256K(约25万Token)的上下文窗口,在同尺寸模型中处于较高水平。官方将其定位为"混元迄今最智能的模型",Hy3 preview 于4月23日正式发布并同步开源,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅提升。
![]()
实测验证
本次评测选取三个典型场景,事实审计员、文档可视化和深度研究。
事实审计员
任务类型:多信源交叉核验
测试指令:
调研关于“最近三个月AI领域高管变动”的传闻,对比至少5个不同背景的权威信源,列出已知事实和逻辑冲突点,并给出信度评分。
执行结果:
执行耗时:约7分钟
信源覆盖:CNBC(权威财经)、WIRED(科技深度)、The Verge(科技媒体)、钛媒体等(中文科技财经)、Mint(国际科技)
评测维度评分:
![]()
实测发现的主要事件:
1. OpenAI高管离职潮(高信度):Kevin Weil、Bill Peebles、Srinivas Narayanan三人于4月中旬同日离职,Sora关停,Prism项目终止并入Codex
2. xAI创始人集体离职(中等信度):2026年2-3月,11位联合创始人全部离职
3. 理想汽车高管变动(中等信度):郎咸朋于2026年2月14日离职
4. 苹果CEO更替(待验证):约翰·特纳斯接替库克,英文主流媒体未广泛报道,信源可靠性存疑
结论:模型在多信源检索和结构化输出方面表现稳定,但在信息交叉验证时存在“收得多、核得少”的倾向——对可疑信息(如"苹果CEO更替"缺乏英文信源佐证)未能主动标注风险。但同时也未能识别苹果CEO更替这一信息实际上可信度较高,该信息苹果官网已经进行了官宣。这一能力短板在严肃的事实核查场景中需要关注。
文档可视化
任务类型:财报PDF转动态仪表盘
测试指令:
将附件的腾讯2025年年度财务报告PDF转化为一个深色主题HTML动态仪表盘,具体要求如下:
核心约束:
严格基于年报原文数据,禁止引入任何外部信息
如年报中未提及某项数据,明确标注"年报未披露"而非虚构
所有数字以年报为准,不进行二次计算
数据分析要求:
提取近三年核心财务数据(营收/净利润/毛利率),做三年对比
分析主要业务板块的收入结构(按业务线拆分)
标注关键财务指标的变化趋势(增长/下降/持平)
视觉要求:
深色主题,专业金融风格(参考彭博终端配色)
数字入场动画:关键数据从0滚动增长至实际值(数字脉动效果)
交互效果:鼠标悬停关键指标时显示详细数据(决策舱扫描效果)
包含数据来源标注:每项数据标注对应年报页码
输出要求:
单HTML文件,内嵌CSS和JavaScript
响应式设计,适配PC端展示
代码结构清晰,便于后续修改
执行结果:
执行耗时:约20分钟
输出成果:腾讯2025年年报HTML动态仪表盘
成果截图(部分):
评测维度评分:
![]()
结论:AI辅助财经内容生产正从“文本生成”向“数据可视化自动化”进阶。该工具在数据处理、视觉呈现、交互设计三个层面的完成度已达到可发布至财经媒体报道的合格线。推荐指数4.5/5.0。
可优化方向:
三年对比数据可视化不足,缺乏长期趋势折线图;
业务分部占比缺乏饼图或堆叠柱状图;
移动端适配有待完善。
深度研究
任务类型:产业研究报告生成
测试指令:
以“AI训练成本下降趋势及其对产业格局的影响”为主题,进行深度研究分析,输出结构化报告,要求覆盖成本驱动因素、数据支撑、产业格局影响,投资机会与风险、未来趋势判断,区分事实陈述和观点分析,对关键数据注明来源。
执行结果:
执行耗时:约5分钟
信源覆盖:共引用6个一手信源,包括Stanford HAI 2025报告、Epoch AI研究论文(arXiv:2405.21015)、央视新闻报道、中国信通院报告等
报告规模:约4500字,包含3张数据表格、6个主要章节、20+个细分论点
评测维度评分:
![]()
结论:模型在深度研究的框架搭建、信源检索与标注、结构化输出上表现优秀,能够生成符合专业标准的研究报告。但在产业洞察的深度(如对中国AI芯片厂商的具体分析)、风险提示的全面性上仍有提升空间。
适用场景建议:
✅ 快速搭建研究报告框架
✅ 检索和整理公开信源
✅ 生成结构化分析报告
⚠️ 需谨慎:具体投资标的推荐、未公开数据的推测、前瞻性判断(需人工复核)
产品组合拳:模型+Agent框架
根据腾讯内部测试的公开反馈,Hy3 preview 在以下四个纬度获得了相对积极的评价:
![]()
在国内大模型竞争格局中,混元本次的定位可以概括为:“不做第一,但求好用”。从参数规模看,295B总参/21B激活参数定位于中等尺寸区间,与“大杯”产品存在差异,但规模控制带来了更好的推理效率。
从场景定位看,Coding和Agent场景是明确的主打方向。这一选择与Agent经济的崛起趋势相吻合——当模型的价值越来越多地体现在“作为Agent的大脑”而非“直接回答用户问题”时,响应速度、任务完成率、多步骤稳定性,比单纯的基准测试分数更重要。
从生态角度看,混元与WorkBuddy的结合构成了“模型+Agent框架”的组合,模型能力可以在真实业务场景中持续锤炼,场景反馈可以持续反哺模型优化。
官方数据显示,在CodeBuddy与WorkBuddy产品上,Hy3 preview首token延迟降低54%、端到端时长降低47%、成功率提升至99.99%+。实际用户环境中,已稳定驱动最长495步的复杂Agent工作流,覆盖文档处理、数据分析、知识检索、MCP工具链编排等多样化办公场景。整体推理效率提升40%,成本相比上一代模型大幅下降。
在商业化定价上,腾讯云TokenHub平台显示,Hy3 preview输入价格最低1.2元/百万tokens,输出价格最低4元/百万tokens,并推出个人版最低28元/月的Token Plan套餐——这为评测稿此前提及的"性价比优势"提供了可量化的基准参照。
![]()
目前,Hy3 preview已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等产品首发上线,微信公众号、和平精英、腾讯新闻等多个主线产品也在陆续接入。
Hy3 preview 的发布,更像是一个信号,而非一个结论。它标志着腾讯混元在经历团队重组、架构重构后,选择了一条更务实的路径——不再追逐榜单上的“第一”,而是追求实际场景中的“好用”。
在本文测试未涉及到的性价比中,官方公布的内部测试可作为参考:腾讯内部测试显示,腾讯文档AI PPT生成成功率提升20%、耗时缩短20%;和平精英AI NPC角色扮演稳定性获得业务团队高度评价;QQ AI助手数学推理表现提升尤为明显;元宝深度Co-Design后用户意图理解与内容质量全面提升。
上述数据为混元“性价比优势”提供了一定的内部佐证,但跨厂商的横向对比仍需在后续评测中进一步验证。
结语
从更宏观的视角看,Hy3 preview 的出现,是整个大模型行业转向的一个缩影。
过去两年,国内外的大模型竞争本质上是一场基础设施竞赛——谁能训得更大、算得更快、数据更多,谁就站在了排行榜的前列。但这场竞赛正在迎来边际效益递减的节点:当GPT-4级别的能力已经"白菜化",当推理成本以每年数倍的速度下降,纯粹的参数军备竞赛开始失去意义。
下一个竞争维度,正在转向任务完成率、工具调用稳定性、长程推理的可靠性——换句话说,是“能不能真正干活”,而不是“能不能在考卷上拿高分”。这恰好是 Hy3 preview 所押注的方向。
对于腾讯混元来说,这次重新出发面临的挑战不只是技术层面的。在竞争对手已积累大量真实用户反馈的背景下,如何快速积累高质量的任务数据、如何在腾讯庞大的业务生态中找到“模型锤炼”的最佳路径,将直接决定混元能否在下半场建立真正的差异化。
WorkBuddy 作为面向知识工作者的 Agent 框架,理论上是一个理想的“练兵场”——用户的真实任务场景足够复杂、反馈足够直接。但换个角度来看,“模型在框架中不断进化”这一愿景的实现,还取决于数据闭环的质量、人工反馈的密度,以及腾讯是否愿意在这条路上保持足够的耐心。
Hy3 preview 是第一步,能否兑现“务实主义”的承诺,要看后续正式版本的真实表现——以及它在更大规模用户场景中经受检验之后的样子。(本文首发钛媒体APP,作者 | AGI Signal,编辑 | 秦聪慧)







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论