黑盒蒸馏超越白盒：中山大学联手中通，用Proxy模型撬开GPT-4的知识阀门

中山大学与阿里巴巴发表论文提出Proxy-KD方法，通过在白盒代理模型与黑盒教师模型GPT-4之间架桥，让小模型学习到教师模型的输出概率分布，在BBH和GSM8K等推理基准上以7B参数击败了需要访问教师内部状态的白盒蒸馏方法。这一技术路径不仅改写了知识蒸馏的游戏规则，也揭示了AI能力从开放模型走向开放蒸馏的深层趋势。

大模型圈有一个公开的秘密：全世界最好的模型——GPT-4、Claude、Gemini——都锁在黑盒里。你只能通过API调用它们，拿到一段段文本输出，但看不到它们的内部状态、输出概率分布、注意力分数。这意味着，如果你想用这些最强模型去教一个小模型，你只能用最笨的方法——拿输出当标签，硬训。

但一篇来自中山大学和阿里巴巴的论文，正在改写这条规则。作者提出了一个名为Proxy-KD的方法，核心思路出奇地简单却在多个基准上超越了传统的白盒蒸馏——在最强教师和最弱学生之间，插入一个中间人。这个中间人，让整个知识蒸馏的游戏规则变了。

知识蒸馏的黑盒困境

知识蒸馏（Knowledge Distillation）这个概念，最早由Hinton等人在2015年正式提出。它的设想很优雅：大模型（教师）富含知识，小模型（学生）参数量有限、学不到那么多，但如果让学生模仿教师的输出行为，就能把教师的知识蒸馏进学生体内。过去十年，蒸馏技术在深度学习领域遍地开花。但在大模型时代，它遇到了一个结构性矛盾。

最好的大模型——GPT-4——是闭源的商业模型，只能通过API访问。你拿不到它的logits（输出概率分布），拿不到隐藏层状态，拿不到注意力分数。一切你用来教学生模型的东西，都是黑盒之外的文本输出。

业界对此并非束手无策。Alpaca（斯坦福，2023）、Vicuna（UC Berkeley/LMSYS，2023）、Orca（微软，2023）等经典工作，走的都是黑盒蒸馏路线——用GPT-3.5或GPT-4生成大量指令数据，然后用这些数据fine-tune小模型。这条路线确实有效，小模型的能力因此大幅提升。

但问题在于：这条路的天花板很明显。黑盒蒸馏只能用教师模型输出的硬标签（hard labels，即具体的生成文本）来训练学生，而白盒蒸馏可以直接拿教师模型的输出概率分布来教学生——后者携带的信息量要丰富得多。白盒蒸馏的学生可以学到教师认为token A和token B都是合理的只是token A更优，而黑盒学生只能学到教师选了token A。这种信息损失，在复杂推理任务上尤为致命。论文中提到的MiniLLM（用反向KL散度优化学生模型，ICLR 2024）和GKD（通用知识蒸馏）等方法虽然有改进，但它们本质上依赖白盒教师，对小模型能力的上限释放有限。

Proxy-KD如何架桥

Proxy-KD的核心思路可以用一句话概括：找一个能访问内部状态的白盒模型，让它先去模仿黑盒教师，再由这个替代者来指导小模型学习。

第一步：代理模型对齐

论文选择Llama-2-70B作为代理模型（proxy model）的基座。70B参数让它有足够的能力去逼近GPT-4的行为模式。对齐分两步走。第一步是监督微调（SFT）：代理模型在教师模型生成的高质量数据上做标准的NLL损失训练，让代理模型学会像教师那样说话。第二步更有意思——偏好优化。论文采用DPO（Direct Preference Optimization）框架：给定同一个输入x，教师模型生成的输出y被视为偏好响应，代理模型自己生成的输出ŷ被视为非偏好响应。代理模型被训练得越来越倾向于产生与教师一致的输出。

这种对齐极其关键。论文在消融实验中发现，如果代理模型仅仅基于Llama-2-70B基础检查点初始化而不经过对齐，BBH上的蒸馏性能会下降10.40个百分点，GSM8K下降5.53个百分点，MMLU也下降3.26个百分点。这证明代理模型必须被驯化成GPT-4的思维方式，而不仅仅是拿来就用。

第二步：学生知识蒸馏

代理模型对齐完成后，它就成了一个白盒版的GPT-4替身。学生模型可以从它身上得到两样东西。第一，教师模型的硬标签（GPT-4原始输出），用于标准的监督微调。第二，代理模型生成的软标签（soft labels）——输出概率分布。这是黑盒蒸馏此前无法获取的关键信息。学生模型通过KL散度损失，去逼近代理模型（也就是近似GPT-4）的概率分布，学到的不只是教师的答案，还有教师认为哪些答案比较靠谱。

更巧妙的是，论文还引入了样本级权重（sample-level weight）。并非所有训练样本的对齐质量都一样高——有些样本上代理模型和GPT-4高度一致，有些样本上则有偏差。权重机制让学生模型更加关注那些对齐质量高的样本，减少噪声样本的干扰。权重计算方式是w(x,y) = σ[(log πp(y|x) - μ) / γ]，其中μ和γ分别是log概率的均值和标准差。这本质上是一个自适应滤波——代理模型越有信心的样本，权重越高。

实验表现：黑盒蒸馏，赢了白盒

论文在多个基准上进行了全面评测，包括MMLU（多任务语言理解）、BBH（Big-Bench Hard，高难度推理）、GSM8K（数学推理）、AGIEval（通用推理）、ARC（科学推理）、CSQA（常识问答）等。

结果令人意外。在BBH上，Proxy-KD达到了53.40分；在GSM8K数学推理上达到53.07分。以Llama-2-7B为学生模型时，传统黑盒蒸馏的平均成绩为53.66%，而Proxy-KD显著超越了这一水平。更值得关注的是，Proxy-KD还击败了MiniLLM（平均53.87%）和GKD（平均52.95%）等需要访问教师模型内部状态的白盒蒸馏方法。换句话说，一个只能看到GPT-4输出的小模型，通过中间人架桥，比那些能看到教师内部状态的竞争对手学得还要好。

这个成绩是在学生模型仅有7B参数的情况下取得的。而教师模型GPT-4据推测拥有超过万亿参数，代理模型也高达70B。小模型通过Proxy-KD，学到了超越其参数规模的推理能力。论文的消融实验进一步验证了每个组件的必要性。移除整个代理模型后，蒸馏退化回硬标签蒸馏，BBH下降6.72分，ARC下降4.24分，GSM8K下降3.56分。移除偏好优化组件后，BBH成绩出现进一步下降。移除样本级权重后，多个基准也出现了程度不一的下滑。

中间人模式的意义

Proxy-KD的意义不止于一篇论文的技术贡献。它回答了一个大模型时代最根本的问题：当最好的模型都在黑盒里时，我们怎么让更广泛的社区受益？

当前的格局是：GPT-4、Claude、Gemini这些顶级模型代表了AI能力的上限，但它们闭源、收费、API受限。开源社区在努力追赶，但能力差距依然明显。知识蒸馏是弥合这一差距的核心手段，但黑盒困境让蒸馏效果大打折扣。

Proxy-KD提供了一条新的路径：不需要打破黑盒，只需要在盒外架一座桥。代理模型作为这座桥，既保留了白盒蒸馏的信息密度优势，又兼容了黑盒教师的封闭性。

这个思路可能产生更深远的影响。在商业层面，闭源API提供商无法阻止用户对自己的模型进行蒸馏攻击——用户通过API调用获取输出，然后训练小模型。Proxy-KD让这种蒸馏更高效、更精确。2026年2月，Anthropic公开指责DeepSeek、Moonshot AI和MiniMax对其Claude模型实施了工业规模的蒸馏攻击，称这些公司创建了超过24000个欺诈账户，生成了超过1600万次对话以提取Claude的能力。2026年6月，Anthropic进一步指控阿里巴巴Qwen实验室同样使用约25000个虚假账户进行了约2880万次对话蒸馏。这正是Proxy-KD场景的极端体现——当蒸馏变得足够高效，它可以从学术方法演变为地缘政治角力中的筹码。

在学术层面，Proxy-KD意味着开源社区不再需要等待闭源巨头开放参数——他们只需要一个足够强的白盒代理模型（比如Meta开源的Llama-3-70B或更强大的后续模型），再通过API获取GPT-4级别的输出，就能够蒸馏出远超传统黑盒方法的小模型。

当然，Proxy-KD同样有其局限。论文明确指出，代理模型与黑盒教师之间的对齐质量是整个流程的瓶颈——如果代理模型本身能力不够强，或者对齐效果不好，蒸馏结果将大打折扣。此外，Proxy-KD依赖一个70B规模的代理模型做中间人，计算成本并不低。论文也提到了一个有趣的现象：在CSQA这类相对简单的任务上，跳过对齐反而出现了微弱提升（+0.86），暗示代理模型可能在简单任务上过度拟合教师输出。

但无论如何，一个问题已经被回答：当最好的老师不愿开口时，你不需要撬开它的嘴。你只需要找一个它愿意交流的翻译官。那篇论文的末尾，附有一个指向GitHub的代码链接。但代码背后是一个更大的信号：AI的能力公用化，正在从开放模型走向开放蒸馏。