黑盒蒸馏超越白盒:中山大学联手中通,用Proxy模型撬开GPT-4的知识阀门

2026.06.29 20:21
中山大学与阿里巴巴发表论文提出Proxy-KD方法,通过在白盒代理模型与黑盒教师模型GPT-4之间架桥,让小模型学习到教师模型的输出概率分布,在BBH和GSM8K等推理基准上以7B参数击败了需要访问教师内部状态的白盒蒸馏方法。这一技术路径不仅改写了知识蒸馏的游戏规则,也揭示了AI能力从开放模型走向开放蒸馏的深层趋势。

大模型圈有一个公开的秘密:全世界最好的模型——GPT-4、Claude、Gemini——都锁在黑盒里。你只能通过API调用它们,拿到一段段文本输出,但看不到它们的内部状态、输出概率分布、注意力分数。这意味着,如果你想用这些最强模型去教一个小模型,你只能用最笨的方法——拿输出当标签,硬训。

但一篇来自中山大学和阿里巴巴的论文,正在改写这条规则。作者提出了一个名为Proxy-KD的方法,核心思路出奇地简单却在多个基准上超越了传统的白盒蒸馏——在最强教师和最弱学生之间,插入一个中间人。这个中间人,让整个知识蒸馏的游戏规则变了。

知识蒸馏的黑盒困境

知识蒸馏(Knowledge Distillation)这个概念,最早由Hinton等人在2015年正式提出。它的设想很优雅:大模型(教师)富含知识,小模型(学生)参数量有限、学不到那么多,但如果让学生模仿教师的输出行为,就能把教师的知识蒸馏进学生体内。过去十年,蒸馏技术在深度学习领域遍地开花。但在大模型时代,它遇到了一个结构性矛盾。

最好的大模型——GPT-4——是闭源的商业模型,只能通过API访问。你拿不到它的logits(输出概率分布),拿不到隐藏层状态,拿不到注意力分数。一切你用来教学生模型的东西,都是黑盒之外的文本输出。

业界对此并非束手无策。Alpaca(斯坦福,2023)、Vicuna(UC Berkeley/LMSYS,2023)、Orca(微软,2023)等经典工作,走的都是黑盒蒸馏路线——用GPT-3.5或GPT-4生成大量指令数据,然后用这些数据fine-tune小模型。这条路线确实有效,小模型的能力因此大幅提升。

但问题在于:这条路的天花板很明显。黑盒蒸馏只能用教师模型输出的硬标签(hard labels,即具体的生成文本)来训练学生,而白盒蒸馏可以直接拿教师模型的输出概率分布来教学生——后者携带的信息量要丰富得多。白盒蒸馏的学生可以学到教师认为token A和token B都是合理的只是token A更优,而黑盒学生只能学到教师选了token A。这种信息损失,在复杂推理任务上尤为致命。论文中提到的MiniLLM(用反向KL散度优化学生模型,ICLR 2024)和GKD(通用知识蒸馏)等方法虽然有改进,但它们本质上依赖白盒教师,对小模型能力的上限释放有限。

Proxy-KD如何架桥

Proxy-KD的核心思路可以用一句话概括:找一个能访问内部状态的白盒模型,让它先去模仿黑盒教师,再由这个替代者来指导小模型学习。

第一步:代理模型对齐

论文选择Llama-2-70B作为代理模型(proxy model)的基座。70B参数让它有足够的能力去逼近GPT-4的行为模式。对齐分两步走。第一步是监督微调(SFT):代理模型在教师模型生成的高质量数据上做标准的NLL损失训练,让代理模型学会像教师那样说话。第二步更有意思——偏好优化。论文采用DPO(Direct Preference Optimization)框架:给定同一个输入x,教师模型生成的输出y被视为偏好响应,代理模型自己生成的输出ŷ被视为非偏好响应。代理模型被训练得越来越倾向于产生与教师一致的输出。

这种对齐极其关键。论文在消融实验中发现,如果代理模型仅仅基于Llama-2-70B基础检查点初始化而不经过对齐,BBH上的蒸馏性能会下降10.40个百分点,GSM8K下降5.53个百分点,MMLU也下降3.26个百分点。这证明代理模型必须被驯化成GPT-4的思维方式,而不仅仅是拿来就用。

第二步:学生知识蒸馏

代理模型对齐完成后,它就成了一个白盒版的GPT-4替身。学生模型可以从它身上得到两样东西。第一,教师模型的硬标签(GPT-4原始输出),用于标准的监督微调。第二,代理模型生成的软标签(soft labels)——输出概率分布。这是黑盒蒸馏此前无法获取的关键信息。学生模型通过KL散度损失,去逼近代理模型(也就是近似GPT-4)的概率分布,学到的不只是教师的答案,还有教师认为哪些答案比较靠谱。

更巧妙的是,论文还引入了样本级权重(sample-level weight)。并非所有训练样本的对齐质量都一样高——有些样本上代理模型和GPT-4高度一致,有些样本上则有偏差。权重机制让学生模型更加关注那些对齐质量高的样本,减少噪声样本的干扰。权重计算方式是w(x,y) = σ[(log πp(y|x) - μ) / γ],其中μ和γ分别是log概率的均值和标准差。这本质上是一个自适应滤波——代理模型越有信心的样本,权重越高。

实验表现:黑盒蒸馏,赢了白盒

论文在多个基准上进行了全面评测,包括MMLU(多任务语言理解)、BBH(Big-Bench Hard,高难度推理)、GSM8K(数学推理)、AGIEval(通用推理)、ARC(科学推理)、CSQA(常识问答)等。

结果令人意外。在BBH上,Proxy-KD达到了53.40分;在GSM8K数学推理上达到53.07分。以Llama-2-7B为学生模型时,传统黑盒蒸馏的平均成绩为53.66%,而Proxy-KD显著超越了这一水平。更值得关注的是,Proxy-KD还击败了MiniLLM(平均53.87%)和GKD(平均52.95%)等需要访问教师模型内部状态的白盒蒸馏方法。换句话说,一个只能看到GPT-4输出的小模型,通过中间人架桥,比那些能看到教师内部状态的竞争对手学得还要好。

这个成绩是在学生模型仅有7B参数的情况下取得的。而教师模型GPT-4据推测拥有超过万亿参数,代理模型也高达70B。小模型通过Proxy-KD,学到了超越其参数规模的推理能力。论文的消融实验进一步验证了每个组件的必要性。移除整个代理模型后,蒸馏退化回硬标签蒸馏,BBH下降6.72分,ARC下降4.24分,GSM8K下降3.56分。移除偏好优化组件后,BBH成绩出现进一步下降。移除样本级权重后,多个基准也出现了程度不一的下滑。

中间人模式的意义

Proxy-KD的意义不止于一篇论文的技术贡献。它回答了一个大模型时代最根本的问题:当最好的模型都在黑盒里时,我们怎么让更广泛的社区受益?

当前的格局是:GPT-4、Claude、Gemini这些顶级模型代表了AI能力的上限,但它们闭源、收费、API受限。开源社区在努力追赶,但能力差距依然明显。知识蒸馏是弥合这一差距的核心手段,但黑盒困境让蒸馏效果大打折扣。

Proxy-KD提供了一条新的路径:不需要打破黑盒,只需要在盒外架一座桥。代理模型作为这座桥,既保留了白盒蒸馏的信息密度优势,又兼容了黑盒教师的封闭性。

这个思路可能产生更深远的影响。在商业层面,闭源API提供商无法阻止用户对自己的模型进行蒸馏攻击——用户通过API调用获取输出,然后训练小模型。Proxy-KD让这种蒸馏更高效、更精确。2026年2月,Anthropic公开指责DeepSeek、Moonshot AI和MiniMax对其Claude模型实施了工业规模的蒸馏攻击,称这些公司创建了超过24000个欺诈账户,生成了超过1600万次对话以提取Claude的能力。2026年6月,Anthropic进一步指控阿里巴巴Qwen实验室同样使用约25000个虚假账户进行了约2880万次对话蒸馏。这正是Proxy-KD场景的极端体现——当蒸馏变得足够高效,它可以从学术方法演变为地缘政治角力中的筹码。

在学术层面,Proxy-KD意味着开源社区不再需要等待闭源巨头开放参数——他们只需要一个足够强的白盒代理模型(比如Meta开源的Llama-3-70B或更强大的后续模型),再通过API获取GPT-4级别的输出,就能够蒸馏出远超传统黑盒方法的小模型。

当然,Proxy-KD同样有其局限。论文明确指出,代理模型与黑盒教师之间的对齐质量是整个流程的瓶颈——如果代理模型本身能力不够强,或者对齐效果不好,蒸馏结果将大打折扣。此外,Proxy-KD依赖一个70B规模的代理模型做中间人,计算成本并不低。论文也提到了一个有趣的现象:在CSQA这类相对简单的任务上,跳过对齐反而出现了微弱提升(+0.86),暗示代理模型可能在简单任务上过度拟合教师输出。

但无论如何,一个问题已经被回答:当最好的老师不愿开口时,你不需要撬开它的嘴。你只需要找一个它愿意交流的翻译官。那篇论文的末尾,附有一个指向GitHub的代码链接。但代码背后是一个更大的信号:AI的能力公用化,正在从开放模型走向开放蒸馏。

作品声明:内容由AI生成