微软"叛逃"OpenAI：让GPT和Claude互审，AI幻觉的结构性解法?-钛媒体官方网站

AI时代的"门户之见"正在消融。

当地时间3月30日，微软宣布为Microsoft 365 Copilot推出"多模协作"深度研究功能，允许OpenAI GPT与Anthropic Claude在同一任务中协同工作——对于行业来说，或许这不是简单的API拼接，而是一场关于AI竞争底层逻辑的范式重构。

事件核心：Critique与Council双引擎出击

3月30日，微软对Microsoft 365 Copilot研究助理（Researcher）功能进行了一次意义深远的更新——微软推出了两项互补的多模型协同功能：

Critique（批判）功能：

该功能采用"生成-审核"协同架构。在实际运行中，OpenAI的GPT模型负责研究并生成回复内容，同时Anthropic的Claude模型并行对输出结果的准确性和质量进行审核，最终经过双重验证的成果呈现给用户。Claude的审查重点包括稿件的准确性、完整性和引证质量。

微软同时透露，未来该功能将支持双向协作——由Claude先生成、GPT后审核，实现真正意义上的对称协作。

微软365和Copilot企业副总裁Nicole Herskowitz表示，这种多模型方法应有助于限制AI幻觉并提高生产力。微软同时透露，未来该功能将支持双向运行——Claude先写、GPT后审，实现真正意义上的对称协作。

Council（理事会）功能：

该功能采用并行对比架构。GPT与Claude针对同一课题独立展开研究并生成各自报告后，由一个独立的"裁判模型"对两份产出进行评估，提炼出共识点和分歧点，并总结每个模型的独特贡献。这套机制本质上是在搭建一个"模型间辩论场"。

数据支撑：DRACO基准验证"1+1>2"

概念再好，最终要靠数据说话。微软援引了业界衡量深度研究质量的DRACO基准测试结果，作为此次多模型架构的有效性背书。

DRACO基准测试显示，Critique系统在研究结果的广度、深度及表达质量等核心维度上，表现均优于市场上同类单一架构产品。微软首席执行官萨蒂亚·纳德拉（Satya Nadella）在社交媒体上进一步宣称，与OpenAI、谷歌及Perplexity的同类深度研究产品相比，Critique能提供"顶尖的深度研究质量"。

截至发稿，微软尚未公开DRACO基准测试的完整量化数据。纳德拉在公开声明中使用的表述是Critique能提供"顶尖的深度研究质量"，并称其表现优于OpenAI、谷歌和Perplexity的同类产品。

尽管具体的量化提升数据仍待进一步透明化，但纳德拉的公开背书以及微软在基准测试中对标OpenAI自身产品、谷歌和Perplexity的做法，至少传递出一个信号：这是一次经过充分测试的产品化发布。

从"模型忠诚"到"架构自由"

Critique的发布背后，藏着一条清晰的战略叙事线。这条线的起点，是微软与OpenAI之间微妙的关系演变。

1. 微软-OpenAI关系的结构性松动

2025年10月28日，OpenAI宣布完成企业重组，正式转型为公共利益公司（PBC）。根据新协议，微软持有OpenAI营利业务板块约27%的股份，同时保留了对其模型和产品的技术访问权至2032年。值得注意的是，此前（2025年初）双方已调整合作关系，OpenAI获准访问竞争对手的计算资源，打破了此前仅依赖微软Azure的算力独家供应格局。

紧接着，2025年11月18日，微软与英伟达、Anthropic宣布建立新的战略合作伙伴关系。微软承诺向Anthropic投资最多50亿美元，Anthropic则承诺从微软购买价值300亿美元的Azure算力。Claude模型正式登陆微软Azure平台。微软CEO纳德拉当时明确表示，OpenAI仍然是微软的关键合作伙伴，但与Anthropic的合作建立在"将越来越多地成为彼此的客户"的基础之上。

2. 多模型之药

如果回溯时间线，会发现纳德拉推动Copilot多模型化的紧迫感并非无中生有。据报道，2025年12月，纳德拉在内部沟通中直言Copilot与Gmail、Outlook等工具的集成"大多不奏效"且"不够智能"，并亲自介入督促产品团队整改。这一内部危机意识，为后续多模型战略埋下了伏笔。

2026年3月9日，微软正式推出基于Anthropic Claude模型的Copilot Cowork智能体，支持多步骤工作流自主执行。而此次Critique和Council的推出，则是多模型协作的进一步延伸——Copilot Cowork侧重于Claude独立执行复杂工作流，而Critique让GPT与Claude在同一研究任务中形成"生成+审核"的互补组合。两者的定位并非替代关系，而是微软多模型生态中覆盖不同场景的两条平行路径。

GPT擅长创意生成和广度覆盖，Claude以严谨的逻辑推演和审慎的事实核查见长。将两者组合为"生成+审核"的协同架构，本质上是在对齐学术界"同行评审"的经典范式——让一个模型产出的成果接受另一个独立模型的审视。

AI竞争转向"系统博弈"

Critique的发布不仅仅是一个产品功能迭代，它或标志着AI产业竞争的底层逻辑正在发生位移。

第一层位移：从单一模型比拼到多模型编排。

过去两年的AI竞争，核心叙事是"谁的模型参数更大、 benchmarks分更高"。而微软通过Critique传递出的信号是：未来竞争的关键不在于单个模型的能力天花板，而在于你能否将不同模型的优势组合成一个高效协同系统。模型编排能力正在成为新的核心壁垒。

第二层位移：从供应商锁定到模型超市。

Critique通过Copilot平台的模型调度能力，实现了跨厂商模型的协同调用。对企业用户而言，这意味着不必再为"选择哪个模型"而纠结——系统可以同时调动不同供应商的模型优势组合完成任务。这实际上是在推动AI市场从"模型专卖店"向"模型超市"演进。

第三层位移：AI幻觉治理进入"结构性解法"阶段。

此前，应对AI幻觉的手段主要依赖模型自身的RLHF（基于人类反馈的强化学习）对齐和提示工程优化。而Critique引入的"独立模型审核"机制，是一种架构层面的结构性解法——用Claude的审慎来制衡GPT的"过度自信"，以跨模型对立来实现自我纠错。这比依赖单一模型"既当运动员又当裁判员"要可靠得多。

"AI竞争已从单纯的模型参数竞赛转向复杂的系统集成与逻辑验证新阶段。"

随着深度研究系统的落地，微软在企业级生产力工具市场的护城河将进一步加固。对于整个行业而言，这个趋势意味着：评判一个AI产品强弱的标尺，正在从"跑分"转向"实战"。

目前，Critique与Council功能已率先集成至Microsoft 365 Copilot的研究助理工具包中，进入早期测试阶段，首批访问权限仅限于加入微软"Frontier计划"的企业客户。这一选择颇具深意——微软没有直接向消费端铺开，而是优先在高精度需求的B端场景验证。

从应用场景来看，这套多模型协作架构的潜在适用范围相当广泛：

• 学术研究领域：通过GPT快速生成文献综述初稿，再由Claude按照学术标准进行准确性和引证质量审查，有效降低研究过程中AI辅助环节的幻觉风险。
• 法律文档处理：在合同审查、法律文书起草等对准确性要求极高的场景中，"生成-审查"双保险机制能显著提升产出的可靠性。
• 战略分析与投研：Council的并行对比机制天然适用于需要多维度交叉验证的复杂决策场景，帮助投资人和企业管理者捕捉单一视角可能遗漏的关键信号。

对于中国AI产业而言，微软的这一动作同样具有参考价值。

当前国内大模型赛道竞争激烈，但多数玩家仍困在"单模型比参数"的竞争框架中。微软的实践表明，多模型协作编排可能是一个被低估的方向——尤其是在国内已有多个差异化能力模型（如DeepSeek在推理能力上的突出表现、文心一言在中文理解上的积累等）的背景下，如何构建一个高效的多模型调度与协作平台，或许比执着于训练一个"全能冠军模型"更具商业可行性。（本文首发钛媒体APP，作者 | 硅谷Tech_news，编辑 | 秦聪慧）