文 | 脑声常谈
2026年3月17日,国际顶刊《Nature》杂志发表了一篇火药味十足的新闻专题,标题直指神经科学的核心争议:《Dopamine takes a hit: how neuroscience is rethinking the ‘feel-good’ chemical》(多巴胺遇挫:神经科学如何重新审视这种“快乐化学物质”)。文章的导火索,是2025年5月西班牙塞维利亚多巴胺学会年会的一场关键辩论。争论的焦点,是一个统治领域数十年的经典假说——奖赏预测误差(RPE)理论。大量新研究正在动摇它的根基,甚至有人认为,它可能被彻底推翻。
这场争议不只是在学术圈内“打架”。因为多巴胺理论是多动症、成瘾、精神分裂症等疾病诊疗逻辑的基石——如果基石动了,临床的方向也可能随之改变。
大众认知与学界共识:多巴胺远非“快乐化学物质”
大众常将多巴胺定义为带来愉悦感的奖赏化学物质,认为它是人们从娱乐性药物、刷社交媒体中获得快感的来源,但神经科学家一致认同,这是对多巴胺功能的极度简化。过去学界有一套简洁的多巴胺作用模型解释其在大脑中的运作机制,如今该模型却不断受到修正甚至颠覆的挑战。
统治学界数十年的经典理论:奖赏预测误差(RPE)假说
理论起源与核心逻辑:该理论源于巴甫洛夫经典条件反射实验,1997 年由剑桥大学沃尔夫拉姆・舒尔茨团队通过灵长类动物实验正式确立:多巴胺的爆发式释放,会将外界刺激与奖赏关联,强化动物 / 人类满足需求的行为联结;当意外获得奖赏时,多巴胺神经元剧烈放电,后续会将信号转移至奖赏预测线索(如提示奖赏的灯光、声音),若预期奖赏未出现,多巴胺神经元放电则会骤降。简单来说,多巴胺信号帮大脑持续优化对奖赏(食物、伴侣、安全场所)来源的预测。
![]()
理论价值与地位:它是计算神经科学的里程碑成果,首次用数学框架解读动物实验数据,完美解释行为机制,也是神经科学领域少有的能将神经元放电、突触活动与复杂行为、成瘾问题串联的理论。尽管学界深知其部分假设过于简化,但仍被视为理解大脑功能的重大突破,主导并指引该领域研究数十年。
延伸理论:时序差分强化学习(TDRL)研究者在 RPE 基础上拓展出该理论,通过预测值与实际值的时间差更新预测、优化行为以最大化收益,大量实验曾为其提供支撑。
新研究冲击:多巴胺的功能远超“奖赏”
近十年,动物实验中监测神经元多巴胺释放的技术突破,让更多实验室获得关键数据,直接动摇RPE/TDRL 的核心地位,研究发现:
认知功能拓展:多巴胺参与注意力、工作记忆、社交行为,并非仅与奖赏相关;
非奖赏信号响应:多巴胺神经元会对新刺激、威胁、运动、厌恶刺激、新奇事物做出反应;
编码多元变量:部分多巴胺神经元编码动物在迷宫中的位置、移动速度、与目标的距离,而非仅编码奖赏价值;
奖赏优先级调控:多巴胺可同时编码多种潜在奖赏,帮动物根据需求切换优先级(如渴时关注水、遇配偶时关注求偶);
动作预测功能:2025 年研究发现多巴胺参与动作预测,推动重复行为,暗示成瘾可能并非源于 RPE。
这些发现证明,原有的 RPE/TDRL 模型已无法完整解释多巴胺的全部作用。
学界核心争议:修正旧模型,还是彻底推翻?
塞维利亚会议将直面这一关键问题:
革新派:认为 RPE/TDRL 框架已过时,仅靠修修补补无法适配新数据,应建立底层假设完全不同的新模型;
保守派:该理论已深度融入多动症、精神分裂症、成瘾等疾病的临床认知与诊疗逻辑,体系过于庞大,难以轻易舍弃,主张在保留核心的前提下拓展模型。
颠覆性新理论:逆向解读多巴胺的作用
1. Erin Calipari:多巴胺是 “信息处理与学习的助推器”
核心观点:多巴胺的核心功能并非奖赏,而是让其他神经系统更高效运作,强化任务相关活动、加速决策,参与所有认知过程;
2. Vijay Mohan Namboodiri:ANCCR 回溯性学习模型(与 RPE 完全相反)
核心逻辑:RPE:动物先感知线索,再将线索与后续奖赏关联;ANCCR:动物先获得奖赏,再回溯寻找引发奖赏的线索,多巴胺释放随奖赏重复出现而增加,标记事件意义并启动记忆搜索。
实验验证:给未训练小鼠随机发放糖水奖赏,RPE 预测多巴胺反应会随学习下降,而 ANCCR 预测多巴胺会随奖赏重复增加,实验结果支持后者。
临床启示:该模型能解释成瘾难以治疗的原因—— 成瘾者的多巴胺会强化 “奖赏(药物)→回溯线索(吸烟场景)” 的联结,即使反复戒断也无法消除记忆,而 TDRL 无法解释这一现象。
3. 模型修正派:在 TDRL 框架内兼容新数据
以 Samuel Gershman 为代表的学者主张不推翻 TDRL,而是重构理论假设:
针对“多巴胺释放随动物接近奖赏而递增” 的实验现象,提出动物会将 “线索到奖赏” 的过程拆分为连续时间片段,越接近奖赏,价值评估越高,因此多巴胺信号会逐步上升,这一修正并非临时拼凑,而是基于对动物认知逻辑的重新理解。
学界态度与未来走向
技术驱动变革:基因编码传感器与光纤光学技术的进步,让科学家能更精准测量深部脑区的多巴胺神经元活动,发现了大量 RPE/TDRL 无法解释的例外情况;
观点分化:
部分学者(如 David Redish)认为应保留 RPE/TDRL 的核心价值,在其基础上拓展复杂性;
部分学者(如 Josh Dudman)更愿意尝试全新模型,尽管这会让许多同行感到不安;
核心困境:30 年间 RPE/TDRL 已衍生出大量分支模型,形成 “移动靶标”,让新理论难以彻底证伪旧体系。
小编寄语:
你可能听过这个说法:多巴胺是“快乐分子”。恋爱时多巴胺飙升,刷短视频停不下来是因为多巴胺,吃甜食开心也是多巴胺。这个说法通俗易懂,但科学家听了会皱眉头——因为多巴胺的工作,远比“快乐”两个字复杂得多。
过去三十年,教科书上写的是:多巴胺负责“奖赏预测误差”。这个理论很漂亮,用它解释成瘾、解释学习、解释动机,几乎无所不能。但最近几年,实验技术突飞猛进,科学家能更精确地盯着多巴胺神经元看。结果发现:多巴胺干的事儿,比教科书写的多太多了。它会在你遇到威胁时激活,会在你移动时放电,会编码你在迷宫里的位置……
于是,一场关于“多巴胺到底是什么”的争论在学术会议上炸开了。成瘾者的治疗方案、精神分裂症的疗法——都建立在我们对多巴胺的理解上。如果理解变了,治疗方向也可能跟着变。
当然,这场争论还要持续很多年。
但有一点可以确定:多巴胺的故事,远比“快乐分子”精彩得多。
原文链接:https://doi.org/10.1038/d41586-026-00836-x







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论