57倍价差: 微软亲手拆掉AI Agent的围墙

2026年6月16日，微软Copilot Cowork全球GA的同时宣布将引入多模型选择和按用量计费，DeepSeek V4微调版赫然在列。这一动作标志着微软正在将AI Agent从'模型溢价'的产品变成'算力效率'的生意——DeepSeek V4 Pro输出成本仅为Anthropic Fable 5的1/58。本文从定价模式、供应商博弈和成本革命三个维度拆解微软的战略转向及其产业含义。

2026年6月16日，微软用两件事同时震动了AI产业：一是正式将Copilot Cowork推向全球商用，二是宣告——这个旗舰级企业AI Agent将不再绑定Anthropic一家模型。

你可能会纳闷：Copilot Cowork今年3月才以“前沿预览”身份亮相，彼时微软把它包装成了与Anthropic深度技术合作的标杆产物。仅仅三个月后，Nadella就在Build大会上亲手拆掉了这面“独家合作”的围墙——不但引入OpenAI的GPT-5.5，还在“即将上线”的清单里塞进了一个更劲爆的名字：DeepSeek V4的微调版。

更值得追问的是定价。Copilot Cowork不再走传统SaaS“一口价买座位”的老路，而是在每人每月30美元的M365 Copilot许可费之上，叠加了一套按任务消耗计费的精密体系——模型选择、上下文检索量、工具调用次数、运行时长，四个变量共同决定一张账单。

这两件事应该放在一起看：它们指向同一个方向——微软正在把AI Agent从“模型溢价”的产品，变成“算力效率”的生意。

现象：微软的“三重手术”

先说发生了什么。微软对Copilot Cowork做的三件事，每一件单独看都是常规操作，放在一起看就构成了战略转向。

第一刀：定价模式。6月16日全球GA的同时，微软公布了Copilot Cowork的计费规则。每一位Cowork用户必须先拥有一份M365 Copilot许可证——标准定价30美元/用户/月。在此基础上，Cowork本身按任务消耗的“Copilot Credits”计费。每一笔任务的定价由四个变量确定：模型选择、上下文检索量、工具调用次数、运行时长。支付方式两套：按量付费（PAYG）和预购套餐（P3）。

这不是微调。这是微软AI产品从“软件许可”到“云资源计费”的根本转向。它的逻辑是直观的：一个处理三封邮件的轻量任务，和一个跨五个应用、调用十几种工具、检索百万级上下文的重度Agent工作流，不该付同样的钱。如果你一个月只用Cowork跑了20个任务，和隔壁部门跑了2000个任务的账单，应该差出两个数量级。

第二刀：模型开放。当前Cowork默认运行Anthropic的Claude Opus 4.8和Sonnet 4.6——这是自3月预览期就确立的基础架构。但微软同时给了Frontier计划用户一个隐藏选项：切换到OpenAI的GPT-5.5。然后抛出了一个更远的路线图：一款完全托管于Azure的自研低成本模型（代号Cowork 1），以及——最值得关注的——对DeepSeek V4微调版的评估接入。

据科技媒体Directions on Microsoft主编Mary Jo Foley报道，微软官员称Cowork 1将“以大幅降低的成本处理任务”。而Charles Lamanna在官方博客中的措辞直接指向了模型选择权——用户应该能根据不同任务，在能力与成本之间找到最佳平衡点。

翻译成商业语言：别指望微软会替你选模型。它要做的，是给你一张菜单。

第三刀：成本预期。这张菜单上的价格差，能让人倒吸一口凉气。根据pricepertoken.com的实时追踪数据，DeepSeek V4 Pro的API定价为输入0.43美元/百万token、输出0.87美元/百万token。同期Anthropic Claude Fable 5的定价为输入10美元、输出50美元。输出端价差57.5倍，输入端23倍。

以一个典型的、每天处理数千份文档的企业工作流做粗略估算：如果月度token消耗在10亿级别，用Fable 5的月度模型账单可能高达五万美元以上；同样的任务量切换到V4 Pro，账单可能压缩到一千美元以下。这不是“降低成本”，这是“重新定义成本基线”。

这三刀连在一起，就是一个信号：微软正在将Copilot从一个“高端定制餐厅”改造成“自助美食广场”——底层是Azure的厨房，上面可以挂任意模型，最终端给企业客户的，是一份按盘子大小和食材档次计价的账单。

分析：为什么是现在？为什么是DeepSeek？

按量计费不是“锦上添花”，是“续命”

要理解这次定价变革，需要回到一个根本问题：企业到底愿不愿意为AI Agent持续付费？

2025年到2026年上半年，行业给出的答案是复杂的。一方面，Copilot的M365许可数确实在涨——微软Azure AI相关收入在过去一年实现了翻倍以上增长。但另一方面，企业IT预算整体在收缩。Fortune 5月的长篇报道披露，微软股价从2025年10月的历史高点起，在五个月内下跌了约34%——投资者担心的是：AI投入巨大，但回报路径不够清晰。

更关键的是Agent的消耗特性。一个Copilot Chat里的简单问答，可能只需调用一次轻量模型，生成几百个token。但Copilot Cowork的一个完整工作流——比如“分析上周所有销售邮件，更新CRM，生成PPT汇报，发给全组”——可能涉及数十次模型调用、跨多个应用的上下文检索和海量工具交互。如果这两种任务按同一价格收费，要么轻度用户补贴重度用户，要么微软自己吃掉成本差。

微软选择了第三条路：让用户为自己实际消耗的算力付费。据Directions on Microsoft报道，这一决策在4月的Q3财报电话会上已经被CFO Amy Hood有所预告——消费定价“会比市场预期来得更快”。

这不是微软一家的选择。根据AI Agent行业统计，已有45%的AI Agent公司采用了某种形式的按用量计费模式。AI Agent市场整体规模预计从2025年的73.8亿美元增长到2030年的471亿美元，年复合增长率44.8%——而在这个增速背后，定价模型的演变是决定谁能捕获价值的关键变量。

但这里藏着微软的真正算盘：按用量计费把“模型成本”变成了一个透明变量。当客户看到账单上清清楚楚写着“Anthropic模型调用费XXX美元”时，他们自然会追问——“有没有更便宜的选项？”

这个“更便宜的选项”，就是DeepSeek。

从“OpenAI独家”到“模型超市”——微软的供应商再平衡

回顾微软AI战略的演化轨迹，有一个词贯穿始终：commoditize your complements（把你的互补品商品化）。这是Joel Spolsky在2002年提出的经典商业策略，而Nadella时代的微软把这句话执行到了极致。

2023年，微软押注OpenAI，用130亿美元投资换来了GPT-4的独家云托管权和Copilot的产品先发优势。这笔交易让微软在AI竞赛初段拿到了最好的牌。但“独家”从来不是微软的终极目标——它真正擅长的是在做大蛋糕的同时，让面粉供应商彼此竞价。

转折点出现在2024年底到2025年。三个事件同时发生：OpenAI开始自建算力、与Oracle和Google Cloud签约降低对Azure的依赖；Anthropic的Claude在编程和Agent任务上展现出对GPT的明显优势；微软的AI收入增速没能完全满足华尔街预期。Fortune详细记录了这一时期内微软内部的震荡——组织架构调整、Nadella亲自下场写AI Agent原型代码，公司对“过度依赖外部模型供应商”的焦虑达到了顶峰。

Nadella对“前沿”的定义也随之改变。在2026年6月与Stratechery的Ben Thompson的访谈中，他给出了一个值得逐字品读的表述：

Frontier is not about any frontier model — I want to build whatever you did with M365 or with Azure into a platform which allows everybody to basically build their own hill-climbing machine.

这段话拆开看，有三个关键信息。第一，“前沿”不再是“拥有最好的模型”，而是“拥有最好的平台”。第二，平台的价值在于让每个客户都能打造自己的“爬坡机器”——也就是定制化的AI Agent。第三，平台上跑什么模型——可以是OpenAI的，可以是Anthropic的，可以是DeepSeek的，也可以是微软自研的Cowork 1——不重要。重要的是平台本身。

当微软同时接入Anthropic、OpenAI和DeepSeek时，它不是在“扩展选择”——它是在重构供应商的权力结构。每多一个备选模型，微软在谈判桌上的筹码就多一分。而GitHub Copilot在两个月前已经先行一步宣布转向按用量计费——这套逻辑正在微软全产品线铺开。

DeepSeek的“价格屠刀”与开源模型的临界点

DeepSeek V4凭什么成为微软菜单上的候选？

先看三组核心参数。DeepSeek V4 Pro采用MoE（混合专家）架构，总参数1.6万亿，活跃参数490亿，支持100万token上下文窗口——在长文档处理场景中，这是Anthropic Claude的5倍容量。V4 Pro在数学和问答基准测试上接近或持平GPT-5.4的水平；但在编程基准上，Claude Fable 5得分62.0，V4 Pro得分38.4——差距是客观存在的。

但真正让企业客户心跳加速的，是价格。我们已经算过：输出端57.5倍、输入端23倍的价差。一个典型的、每天处理数千份文档的企业工作流，如果从Fable 5切换到V4 Pro，月度模型成本可能从五位数降至三位数。

而且DeepSeek的开源权重策略降低了微软的集成门槛和风险。微软不需要像对待Anthropic那样签署复杂的商业协议——它可以直接获取开源权重，在Azure上进行微调和优化部署，完全控制推理基础设施。这也是为什么微软强调新模型将“完全托管于Azure，保障数据驻留与企业级安全合规”。企业客户最担心的“中国模型数据安全问题”，通过Azure的围墙花园得到技术性解决——模型跑在客户自己的Azure租户里，数据不出境。

更重要的是时机。就在微软宣布这一消息的两周前，DeepSeek完成了首轮外部融资：约500亿元人民币（约74亿美元），估值超过500亿美元。投资方阵容包括腾讯和宁德时代，外加一支国家级基金。CNBC和Reuters均报道了这笔交易。创始人梁文锋据称向投资者表示，公司将“优先推进突破性AI研究，而非短期商业化”。

这句话和微软的策略放在一起看，逻辑就通了：DeepSeek需要大规模的分发渠道来摊薄研发成本、验证模型在实际生产环境中的表现，微软需要低成本模型来降低Agent运营成本、扩大付费用户群。Azure上的DeepSeek V4微调版，本质是一笔“渠道换价格”的交易——双方各取所需。

风险与局限——便宜有便宜的代价

但任何策略都有阴暗面。微软的“模型超市”面临至少三重隐性成本，投资者和企业客户都需要清醒面对。

第一，模型质量的梯度差异不容忽视。DeepSeek V4 Pro在编程任务上的得分显著低于Claude Fable 5（62.0 vs 38.4），在复杂推理和多步Agent协调方面也有可感知的差距。对于Copilot Cowork的核心场景——跨应用工作流编排、商业逻辑判断、精确的工具调用链——这些差距可能直接转化为任务失败率和人工干预成本。企业客户最终比较的不是“每token多少钱”，而是“每个成功完成的任务花多少钱”。如果V4 Pro的任务成功率比Fable 5低20%，那57倍价差的真实价值就要打折扣——便宜但需要人工兜底，最终总成本未必更低。

第二，企业信任的政治维度不能回避。尽管DeepSeek V4通过Azure托管解决了技术层面的数据驻留问题，但“中国AI模型”这个标签本身在欧美企业市场仍然是一个高度敏感的变量。6月8日，也就是微软宣布这一消息的一周前，美国五角大楼刚刚将阿里巴巴、百度和比亚迪列入所谓“涉军企业”名单。在这个地缘政治氛围下——Azure上的DeepSeek，到底是“安全合规的托管服务”还是“中国AI的特洛伊木马”，完全取决于客户自己的风险偏好和监管环境。而风险偏好这件事，大企业的CIO通常比CEO更保守。

第三，供应商从来不会被动挨打。Anthropic不会坐视自己的“皇冠级合作”被降级为“选项之一”。如果微软的低成本策略导致Anthropic在Cowork上的调用量大幅下滑，Anthropic完全可以将Copilot Cowork的优化优先级调低——反正它自己也有Claude Cowork产品线，直接面向企业客户销售。OpenAI同样在加速摆脱对微软Azure的依赖，2025年其与Oracle和Google Cloud的签约就是明确信号。供应商博弈从来不是单向的——微软在“商品化”它们的同时，它们也在寻找绕开微软的路径。

结论：AI Agent定价权的转移

微软的这一系列动作，本质上是一场定价权的重新分配。看懂它，就能看懂未来两年企业AI市场的核心矛盾。

过去三年，AI模型的定价权牢牢掌握在模型供应商手里。OpenAI说GPT-4多少钱，企业就得付多少钱。Anthropic的Fable 5定价50美元/百万输出token，市场的反应不是“太贵了”，而是“和GPT比怎么样”——所有人都在同一个高价区间里竞争。这三年里，“前沿模型就该卖高价”是行业默认的共识。

DeepSeek V4撕开的，是这个定价体系的第一道裂缝。当一家公司能把输出成本做到0.87美元/百万token——不到Claude Fable 5的五十八分之一——“前沿模型就该卖高价”的逻辑就站不住脚了。它迫使市场重新思考一个根本问题：你付的那些钱里，有多少是为“能力”付费，有多少是为“品牌溢价”付费？

而微软要做的，是利用这道裂缝，把定价权从模型供应商手里夺过来，交到自己手里。在“模型超市”的逻辑下，模型供应商变成了面粉商——价格由需求方（微软+企业客户）来定，而不是由供给方来定。微软的价值不再在于“拥有最好的模型”，而在于“拥有最好的分发和编排能力”。

这对产业格局的影响至少有三层：

谁会赢？微软本身是最大赢家。按用量计费让Copilot的收入天花板从“用户数×30美元”变成了“任务量×算力成本+平台溢价”。Azure作为底层云平台，无论上面跑的是Anthropic、OpenAI还是DeepSeek，它都在收过路费。DeepSeek的加入，只是让微软能触达更大一批“用不起Fable 5但用得起V4 Pro”的中端客户。按AI Agent市场2030年471亿美元的规模估算，即便只吃下20%的企业Agent工作负载，这也是一个百亿美元级别的增量。

谁危险？Anthropic和OpenAI面临“被定价”的风险。如果微软能向市场证明“混合模型策略”——高端任务用Fable 5，普通任务用V4 Pro——能让企业客户的总成本下降40%到60%而整体任务完成率只下降个位数百分点，那么纯高端模型的市场份额就会被持续侵蚀。Anthropic尤其脆弱：因为它对Copilot Cowork这个分发渠道的依赖程度高于OpenAI。OpenAI有ChatGPT的消费者基本盘和API直销业务，Anthropic的toB业务则高度集中于少数大渠道伙伴。

什么是最大的不确定性？模型能力差距的缩小速度。如果DeepSeek V4.1或V5在编程和推理上追平甚至超越Fable 5，同时保持10倍以上的价格优势，那么整个“高端闭源模型”的商业逻辑将被彻底颠覆——没有企业会为同等的性能付10倍溢价。反之，如果能力差距始终无法弥合，微软的混合策略可能沦为“低端任务的廉价方案”，无法动摇高端市场的基本盘。从现在V4 Pro和Fable 5在编程基准上62.0 vs 38.4的得分差距来看，DeepSeek还有很长的路要走——但别忘了，这个差距在过去12个月里缩小了超过20个百分点。按照这个速度，2027年底前追平并非天方夜谭。

对于企业客户而言，现在最理性的做法不是押注任何单一模型供应商，而是构建一个能自由切换模型的Agent编排层。而这恰恰是微软希望你做的事——也是微软正在全力售卖的东西。Copilot Cowork的模型选择功能和按用量计费体系，就是这个编排层的商业化包装。

当AI Agent定价从“你用什么模型”变成“你完成了多少工作”的那一刻，模型的品牌溢价就死了。活下来的，是那个替你管账单的人。