Nous Research发布对比神经元归因（CNA）：无需SAE训练或权重修改的稀疏MLP电路调控

2026.05.23 20:15

Nous Research于2026年5月推出CNA方法，可识别区分有害与良性提示的MLP神经元。消融0.1%激活使多数指令模型拒绝率降超50%，输出质量保持0.97以上，且基模型深层结构在微调前已存在。

2026年5月，Nous Research团队提出了对比神经元归因（CNA）方法，用于识别语言模型中能区分有害与良性提示的特定MLP神经元。这种方法不需要进行SAE训练或修改模型权重，仅通过前向传递就能实现对稀疏MLP电路的调控。

实验覆盖了Llama 3.1、3.2以及Qwen 2.5系列架构（参数规模从1B到72B不等）。当消融掉0.1%的MLP激活后，多数指令模型的拒绝率下降幅度超过50%，而输出质量（用1减去重复n-gram比例衡量）始终保持在0.97以上。具体来看，Qwen2.5-7B-Instruct的拒绝率从87%降至2%，Llama3.1-70B-Instruct则从86%降至18%。

研究的关键发现是：区分有害提示的深层结构在未微调的基模型中就已经存在，对齐微调并没有创建新的结构，只是将该结构内神经元的功能转化为了稀疏且可靶向的拒绝门。此外，CNA对MMLU准确率的影响微乎其微，始终保持在基线的1个百分点以内，表现优于CAA等现有方法。

CNA的流程包括以下步骤：定义正负提示集、记录MLP层的激活情况、计算神经元的激活差异、筛选出前0.1%的神经元（同时过滤掉通用神经元），以及通过标量乘数验证因果性。值得注意的是，只有指令模型会对调控做出响应，基模型则不会出现行为变化。

作品声明：内容由AI生成