Nous Research发布对比神经元归因(CNA):无需SAE训练或权重修改的稀疏MLP电路调控

2026.05.23 20:15
Nous Research于2026年5月推出CNA方法,可识别区分有害与良性提示的MLP神经元。消融0.1%激活使多数指令模型拒绝率降超50%,输出质量保持0.97以上,且基模型深层结构在微调前已存在。

2026年5月,Nous Research团队提出了对比神经元归因(CNA)方法,用于识别语言模型中能区分有害与良性提示的特定MLP神经元。这种方法不需要进行SAE训练或修改模型权重,仅通过前向传递就能实现对稀疏MLP电路的调控。

实验覆盖了Llama 3.1、3.2以及Qwen 2.5系列架构(参数规模从1B到72B不等)。当消融掉0.1%的MLP激活后,多数指令模型的拒绝率下降幅度超过50%,而输出质量(用1减去重复n-gram比例衡量)始终保持在0.97以上。具体来看,Qwen2.5-7B-Instruct的拒绝率从87%降至2%,Llama3.1-70B-Instruct则从86%降至18%。

研究的关键发现是:区分有害提示的深层结构在未微调的基模型中就已经存在,对齐微调并没有创建新的结构,只是将该结构内神经元的功能转化为了稀疏且可靶向的拒绝门。此外,CNA对MMLU准确率的影响微乎其微,始终保持在基线的1个百分点以内,表现优于CAA等现有方法。

CNA的流程包括以下步骤:定义正负提示集、记录MLP层的激活情况、计算神经元的激活差异、筛选出前0.1%的神经元(同时过滤掉通用神经元),以及通过标量乘数验证因果性。值得注意的是,只有指令模型会对调控做出响应,基模型则不会出现行为变化。

作品声明:内容由AI生成