当前位置：首页 > news >正文

重赏之下必有勇夫的科学依据找到了：《Science》发现超级大奖励可“开挂”学习，多巴胺是幕后功臣

news 2026/7/22 17:23:54

来源：生物学报

长久以来，神经科学和人工智能领域有一个根深蒂固的共识：动物的学习效率主要取决于“学习率”这个固有参数，而与奖励本身的大小关系不大。因此，为了获得足够多的训练数据，实验室中通常给予动物极微小的奖励（如一小滴水）。2026年5月21日，霍华德·休斯医学研究所Luke T. Coddington团队（Sheng Gong为第一作者）在Science 在线发表题为“Reward magnitude determines reinforcement learning efficiency”的研究论文，该研究彻底挑战了这一传统，发现将奖励幅度提高一两个数量级，能使小鼠的学习效率飙升十倍以上。其核心机制在于，更大的奖励能引发大脑中多巴胺更持久、更强的释放，而这直接充当了学习的“加速器”。这项研究不仅揭示了多巴胺调节学习的新机制，也表明整个领域可能长期低估了动物的学习能力，并使用了“次优”的训练策略。

传统误区：为求数据，牺牲效率

经典理论认为，强化学习（动物和AI的核心学习方式）的效率由一个相对固定的“学习率”决定。研究者通常给予小鼠极微量的奖励（不足其日常需求的1%），旨在鼓励它们为获得更多奖励而不断重复行为，从而产生大量用于分析的学习“试次”。这被视为标准操作，但代价可能是学习过程被不必要地拉长了。

核心突破：奖励大小决定学习速度

研究团队设计了一系列复杂的任务，包括隐藏目标导航、高难度抓取运动技能和感觉决策。他们比较了标准微量奖励与提高10-100倍的“超大奖励”对小鼠初始学习效率的影响。

结果令人震惊：

学习效率飙升：在“超大奖励”下，小鼠学会任务所需的尝试次数减少了一个数量级（即10倍以上）。例如，某些导航任务，标准奖励需数百上千次尝试，而超大奖励下仅需几次就能掌握。
表现质量不减：虽然学得快，但小鼠最终能达到的任务熟练度与标准奖励组无异，排除了“为求快而牺牲精度”的可能。
缩小个体差异：大奖励显著减少了不同小鼠在学习速度上的个体差异，使大多数个体都能快速进入高效学习状态。

从极少数但回报极高的案例中吸取经验教训，往往能迅速见效（图源自Science ）

机制揭秘：多巴胺是核心“加速器”

研究从三个层面解释了“超大奖励”为何如此有效：

提高学习速率：奖励越大，学习新知识的速度越快。
增强学习保持：能更好地巩固和利用之前学到的经验。
提升任务专注度：让动物在实验中更投入，减少分心。

而将这三点串联起来的关键分子正是多巴胺。研究人员发现：

奖励大小编码：消费更大奖励时，大脑腹侧纹状体的多巴胺释放不仅幅度更高，持续时间也更长。
光遗传学验证：通过光遗传学手段，在给予标准奖励时人为延长多巴胺神经元的激活时间，可以部分模拟大奖励的效果（提高学习速率和专注度），但无法完全复制（例如，无法增强对先前学习的保持能力）。这表明多巴胺信号是主要但非唯一的介质。

深远意义：重塑实验范式与理论认知

这项研究具有多重深远影响：

修正理论模型：它直接将奖励大小与学习效率挂钩，挑战了“学习率固定”的传统强化学习模型，要求理论框架纳入奖励大小的动态调节作用。
优化实验设计：为动物行为学研究提供了强效的“加速”工具。在需要快速训练动物的复杂实验中（如神经环路解析），采用更大奖励可极大提升实验效率，减少动物使用量，符合“3R”原则。
揭示多巴胺新功能：明确了多巴胺信号不仅编码“奖励预测误差”（“惊喜”值），其信号幅度和时长本身就能调控学习的速度和专注度，深化了对多巴胺功能的理解。
启发AI与教育：为人工智能领域调整“奖励函数”以优化学习效率提供了生物学的启发。同时，对人类教育而言，它也隐喻了“即时、充分的正向反馈”对提升学习动力的根本性作用。

当然，研究也指出，大奖励并非在所有学习场景中都完美，例如在某些简单条件反射任务中可能干扰预期行为。但总体而言，这项工作像一道强光，照亮了被传统实验范式所忽视的动物学习的真实潜能，并指出了一个简单而强大的原理：要学得快，有时奖励必须给得足够“重磅”。

参考消息：

https://www.science.org/doi/10.1126/science.aeb0813

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是“21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）