2026年最荒诞的AI场景之一正在Meta内部上演:一群正在自研AI编码助手的工程师,被勒令停止使用市面上最好用的两个AI编码工具——Anthropic的Claude Code和OpenAI的Codex。理由是,他们用得太多,可能会“不小心”把这些竞品的能力蒸馏进Meta自己的AI模型里。
这不是黑色幽默。6月29日,The Information获取的内部文件显示,Meta已对Applied AI部门的工程师下达明确指令:限制使用Anthropic的Claude Code和OpenAI的Codex,部分涉及这些模型的工作被直接叫停。一份内部备忘录的措辞严厉到令人侧目——竞品AI输出的内容如果混入Meta的训练数据,将引发“与合作方的严重升级”(serious escalations with partner companies)。
一个以“开源AI”为招牌的公司,正在关上一扇它自己最不想被敲开的门。
当“开放”遇到“护城河”
2026年6月下旬,The Information独家披露了Meta内部的一份文件。文件显示,Meta已对其Applied AI部门的工程师实施了一套新规:限制使用Anthropic的Claude Code和OpenAI的Codex这两款AI编码辅助工具。
这不是普通的企业软件管理政策。根据报道,Meta甚至临时暂停了部分依赖这些模型的工作任务。背后的核心担忧只有一个词:蒸馏(Distillation)。
模型蒸馏,简单说就是利用一个强大模型的输出去训练另一个模型。如果Meta的工程师在编写AI训练代码时大量使用Claude Code或Codex,这些工具生成的代码片段、调试建议和架构方案,就有可能被无意中收录进Meta自身的AI训练素材库。这在技术上是完全可行的——当工程师用Claude Code调试一条训练脚本,代码块会经过Anthropic的服务器,反过来,Claude生成的回答也保留在Meta的本地环境中。
Meta内部备忘录警告,如果Claude和Codex的输出最终出现在Meta的训练数据中,可能触发“与合作方的严重升级”——这句话透露出一个关键信息:这种担忧不仅是商业竞争层面的,更带有合同条款层面的严肃性。OpenAI、Anthropic和Google的服务条款都明确禁止使用模型输出来构建竞争性系统。
这是AI行业第一个被公开记录的大型前沿实验室因蒸馏担忧而限制员工使用竞品编码工具的事件。它不是孤立事件,而是一系列“蒸馏攻防战”的最新章节。
就在2026年6月10日,Anthropic向美国参议院银行委员会发出一封公开信,指控阿里巴巴关联方在2026年4月22日至6月5日期间,通过约2.5万个虚假账户进行了超过2880万次Claude交互,试图蒸馏Claude的能力到Qwen模型中——Anthropic称之为“已知最大规模的蒸馏攻击”。更早之前,DeepSeek被OpenAI指控存在蒸馏行为;在xAI诉OpenAI的诉讼中,马斯克在面对“xAI是否通过蒸馏使用了OpenAI模型来训练Grok”的提问时,给出了“部分是的”(Partially yes)的回答。
行业共识已经形成:蒸馏不是学术概念,而是AI军备竞赛中最隐秘也最高效的武器。
拆解Meta的矛盾
开源旗手与围墙修建者
Meta在AI领域的身份标签一直是“开源急先锋”。从Llama 2到Llama 3到Llama 4,扎克伯格一直在强调“开放AI”。它搭建了开放的生态体系,让外部开发者可以在Llama上进行微调和二次开发,甚至鼓励用Llama来构建商业产品。
但Meta对自己内部核心数据和训练流程的保护,远比外界以为的要严格。
这是一种深层的商业矛盾。当Meta面向外部开源Llama时,它输出的是一种战略:通过降低AI技术门槛,削弱OpenAI和Google的封闭生态优势,让Llama成为行业事实标准。可一旦涉及自家核心AI模型的训练数据——那些真正决定下一代模型能力上限的高质量数据集——Meta立刻切换到最保守的模式。
正如一位业内观察者所总结的:“Meta不希望别人蒸馏它,但它也不想‘不小心’蒸馏了别人——前者损害的是竞争壁垒,后者可能触发的是法律风险。”
这种双重身份在2025年到2026年的行业环境中变得越来越难以维持。Anthropic在2025年8月和9月更新了其消费者条款,允许在特定数据集上选择性地进行模型训练。据Crypto Briefing报道,这一条款修订直接引起了Meta法务和安全团队的高度警惕——因为条款边界模糊化后,谁训练了谁的数据,在法律上变得说不清。
四层恐惧:从合同到护城河
Meta对蒸馏的恐惧,至少可以分为四个层次。
第一层:合同风险。OpenAI、Anthropic和Google的服务条款都明确禁止使用模型输出来构建竞争性系统。如果Meta被证实利用Claude或Codex的输出训练了自己的模型,备忘录中“严重升级”四个字指向的很可能是法律诉讼或巨额赔偿。
第二层:竞争壁垒。Meta正在自研AI编码助手MetaCode。如果内部工程师一边花着Meta的预算开发MetaCode,一边依赖Claude Code和Codex来完成关键编码工作,那MetaCode最终产出的能力到底是Meta自己的,还是“借”来的?这才是蒸馏的终极恐惧——你无法证明自己的模型能力是“自己长出来的”还是“偷来的”。当一家公司无法讲清楚“我们的AI能力完全归功于自己的研发”时,它面临的不只是法律风险,更是投资者信心的问题。
第三层:成本失控。The Information的报道指出,Meta内部AI使用量正以指数级膨胀,2026年仅内部AI使用一项就将花费数十亿美元。这促使公司必须控制员工对昂贵外部AI工具的消耗——一边省成本,一边自研替代品。
第四层:数据主权。当工程师使用Claude Code调试训练脚本时,Meta的专有代码库正在通过API流向Anthropic的服务器。对一家把AI作为核心战略方向的公司来说,这是不能容忍的数据泄露路径。Meta开发MetaCode的部分动机,就是要把这些敏感数据流完全封闭在自己的基础设施内部。
蒸馏:AI行业最棘手的灰色地带
蒸馏为什么让所有大模型公司又爱又恨?因为它在技术上几乎是不可防御的。
OpenAI、Anthropic、Google都在服务条款中明确禁止蒸馏,但如何证明?当一个企业的工程师团队每天产生数万次API调用时,哪些是“正常使用”,哪些是“蒸馏攻击”,边界极其模糊。
Anthropic在2026年6月指控阿里巴巴关联方的案件中,列举了约2.5万个虚假账户和超过2880万次交互——这是能抓住的案例。但有多少蒸馏行为是“抓不住的”?当一家公司的员工在正常编码工作中使用竞品AI工具,然后把生成的代码片段作为参考写入自己的训练数据——这算不算蒸馏?在法律和技术两个维度,答案可能完全不同。
更值得玩味的是Meta的“开源双重标准”。Meta鼓励外部开发者用Llama做任何事情——包括蒸馏式的微调和二次开发。但当外部开发者真的用Llama蒸馏了GPT-4的能力时,Meta成为受益者而非受害者;而如果Meta自己的工程师“不小心”蒸馏了Claude,Meta就从受益者变成了违规方。这种不对称性,恰好揭示了所谓“开源AI”背后的真实商业逻辑:开源是进攻的武器,封闭是防守的盾牌。
数据护城河时代到来
Meta的这道禁令,表面上是内部IT管理政策,实际上是一次行业宣言——AI巨头之间的“数据护城河”正在从概念走向制度。
短期之内,其他AI巨头很可能跟进类似的内部限制政策。Google、微软和Amazon内部都在大量使用竞品AI工具,它们面临同样的蒸馏风险。一旦Meta开了先例,合规团队没有理由不跟进。
中期来看,“空气间隙”(air-gapped)企业级AI编码工具将迎来需求爆发。像Claude和GPT-4这样的模型如果无法满足企业对数据残留的合规要求,那么真正的赢家可能是那些能提供完全本地部署或私有云方案的AI公司。Meta选择自研MetaCode,本质上就是在走这条路。对于Anthropic和OpenAI而言,这既是挑战也是机会——谁能更快推出让客户放心的企业级部署方案,谁就能在下一个竞争阶段占据优势。
长期来看,蒸馏不会消失。它就像互联网早期的盗版问题——技术和法律会形成一个动态博弈的平衡。真正值得关注的问题是:当蒸馏变得越来越困难之后,那些“借力”起家的AI公司能否找到真正的独立创新路径?
当最慷慨的开源旗手开始砌墙,AI行业才终于意识到——每一片数据都在等待一个主人来认领,而“开放”和“封闭”之间,隔着的不过是一个护城河的宽度。






快报