Science重磅：下一代协作型AI Agent？UCLA团队揭示AI、小鼠的共同合作逻辑

【导语】合作是人类社会基石，对解决冲突、设计更优 AI 系统意义重大。加州大学洛杉矶分校 Weizhe Hong 团队通过对比小鼠与人工 Agent 合作表现，发现二者行为策略和神经表征相似，揭示了合作的可计算、可复制底层逻辑，为打造智能协作型 AI 提供新思路，相关成果发表于《Science》。

图源：Stella Levi

合作是人类社会的基础，理解合作如何产生并维持，不仅对解决冲突、治疗影响社会行为的疾病具有深远意义，也对设计更优的人工智能（AI）系统至关重要。

随着多 AI Agent 系统在自动驾驶、分布式机器人等场景的落地应用，如何让 AI 学会高效合作，已成为突破技术瓶颈的关键。

已有研究表明，人工 Agent 和生物 Agent 可以表现出相似的行为策略和神经表征。这为探索人工 Agent 在交互时如何产生合作行为，以及这类交互是否可能由类似生物系统中的神经网络动态驱动，开辟了新的方向。

今天，加州大学洛杉矶分校助理教授 Weizhe Hong 团队在这一领域取得了新的突破——通过对比小鼠和人工 Agent 在合作任务中的表现，证明 AI 系能够形成与生物大脑中的观察结果相似的行为策略和神经表征。

这项研究首次直接比较了生物大脑和 AI 之间的合作学(xué)习(xí)，为(wèi)社(shè)会(huì)行(xíng)为(wèi)中(zhōng)最(zuì)重(zhòng)要(yào)的(de)方(fāng)面(miàn)之(zhī)一(yī)提(tí)供(gōng)了(le)新(xīn)见(jiàn)解(jiě)，同(tóng)时(shí)也(yě)为(wèi)人(rén)类(lèi)打(dǎ)造(zào)出(chū)更(gèng)智(zhì)能(néng)的(de)协(xié)作(zuò)型(xíng) AI 提(tí)供(gōng)了(le)全新(xīn)思(sī)路。

相(xiāng)关研(yán)究(jiū)论(lùn)文以(yǐ)“Neural basis of cooperative behavior in biological and artificial intelligence systems”为(wèi)题(tí)，已(yǐ)发(fā)表在权威科学期刊 Science 上。

论文链接

https://www.science.org/doi/10.1126/science.adw8151

实验验证：小鼠是如何学会协作的？

为探究生物合作的底层逻辑，研究团队设计了一次小鼠合作实验。实验选用 8 周龄的 C57BL/6J 小鼠，将其两两配对，放置在中间有透明带孔分隔板的实验舱内。分隔板的设计很关键，既让两只小鼠能通过视觉、嗅觉和轻微肢体接触感知彼此，又避免了直接肢体干扰。

图｜小鼠合作实验中实验舱示意图。

实验的核心任务是同步鼻触：每只小鼠所在的舱室都有一个鼻触口和一个饮水口，只有当(dāng)两(liǎng)只(zhǐ)小(xiǎo)鼠(shǔ)在(zài)规(guī)定(dìng)时(shí)间窗口内先后完成鼻触动作，才能同时获得饮水奖励；若仅有一只小鼠鼻触，或超出时间窗口，双方都无法得到奖励。为逐步提升合作难度，研究团队将时间窗口从初始的 3 秒，逐步缩短至 1.5 秒，最终定为 0.75 秒，以此考验小鼠的协调精度。

在正式实验前，研究团队先对单只小鼠进行“预训练”，让它们学会将鼻触动作与饮水奖励关联，同时剔除鼻触动机极低的个体，确保实验数据的有效性。训练阶段则分为三个阶段，分别对应 3 秒、1.5 秒和 0.75 秒的时间窗口，三个合作阶段分别包含 5 次、10 次和 15 次每日训练，每次训练持续 30 分钟。

经过系统训练，76% 的小鼠的合作表现显著超过随机水平。研究团队进一步通过打乱数据法判断随机水平：将一只小鼠的鼻触时间固定，随机打乱另一只的鼻触序列，计算此时的正确合作概率。对比发现，真实实验中小鼠的正确合作次数远高于随机数据，且错误次数更少，这说明它们是通过主动协调来达成合作。在表现超随机水平的小鼠中，41% 属于“高表现组”。随着训练推进，错误合作次数持续减少，鼻触间隔也不断缩短。

图｜对照实验的实验结果。

为进一步验证“主动协调”的必要性，研究团队设计了三组对照实验：一是将透明分隔板换成不透明板，阻断视觉信号；二是让小鼠“各自为战”，达成单独鼻触即可获得奖励；三是“单方合作”，仅一只小鼠需依赖同步鼻触获奖励，另一只可单独获奖励。

结果显示，这三种情况下，小鼠的合作指数均大幅下降，尤其是不透明板组，等待和互动行为几乎完全消失，充分证明小鼠的合作依赖对同伴信息的感知和互利动机。

这些证据共同表明，这种合作行为并非源于独立的基于时间的决策、简单的模仿行为、偶然动作或依赖社会线索的决策。相反，两只动物都正确遵循规则，并根据伙伴的社会信息和互利关系主动协调行动，才能实现成功的合作。

关键因素：前扣带回皮层

小鼠的协作行为背后，究竟是哪个脑区在“发号施令”？

研究团队将目光锁定在前扣带回皮层（ACC）。ACC 位于大脑额叶中部，此前研究已发现它与情绪处理、社会决策等功能相关，但在合作行为中的具体作用尚不明确。

为观察 ACC 的神经活动，研究团队采用了微型内窥镜钙成像技术。他们先向小鼠的 ACC 区域注射表达荧光钙离子指示剂（GCaMP7f），通过实时记录钙信号变化，追踪单个神经元的活动。最终成功记录了 17 对小鼠共 12798 个 ACC 神经元的活动数据。

图｜小鼠执行合作任务时 ACC 的神经活动（A）；对 17 对小鼠的 12798 个神经元进行神经活动记录（B-D）。

分析发现，ACC 神经元对合作事件具有高度特异性响应：一部分神经元仅在正确合作时激活，另一部分则只对错误合作有反应，且响应正确事件的神经元数量明显更多。正确事件响应神经元的占比，与小鼠的合作表现呈正相关：高表现组小鼠的 ACC 中，这类神经元的比例显著高于普通组。说明 ACC 对成功合作的编码能力，直接影响合作效果。

图｜在合作条件下对正确或错误试验产生反应的神经元，在不透明分隔板条件下仅表现出微弱的神经活动；相反，另一组基本独立的神经元则对自发触鼻行为产生反应。

研究还发现，ACC 不仅能识别合作结果，还能编码合作中的关键决策。通过支持向量机（SVM）解码 ACC 神经信号，研究团队能准确区分这两种决策状态，证明 ACC 是合作决策的“大脑”。

通过 SLEAP 姿态追踪技术，研究团队还拆解出小鼠合作的三大核心策略：

接近：小鼠会主动靠近分隔板，在鼻触前 2 秒内，向同伴一侧移动的频率显著增加；等待：当一只小鼠先到达鼻触端口，会在社交区域停留，直到同伴靠近再行动；互动：两只小鼠会通过隔板两侧的鼻端接触交流，且互动角度从初始的 180 度(dù)逐(zhú)步(bù)优(yōu)化(huà)为(wèi) 120 度(dù)，既(jì)能(néng)保(bǎo)持(chí)对(duì)同(tóng)伴(bàn)的(de)感(gǎn)知(zhī)，又(yòu)能(néng)快(kuài)速(sù)切(qiè)换(huàn)到(dào)鼻(bí)触(chù)动(dòng)作(zuò)，策(cè)略(è)精(jīng)度(dù)持(chí)续(xù)提(tí)升(shēng)。

行(xíng)为(wèi)相(xiāng)似(shì)：AI 复(fù)刻(kè)小(xiǎo)鼠(shǔ)合(hé)作(zuò)逻(luó)辑(ji)

在(zài)揭(jiē)示(shì)小(xiǎo)鼠(shǔ)的合作机制后，研究团队将研究范围拓展至生物系统之外，深入探究合作机制在 AI 系统中的形成及其运作方式。

研(yán)究(jiū)团(tuán)队(duì)基(jī)于(yú)多(duō) Agent 强化学习（MARL）框架，利用循环神经网络（RNN）开发了两个 Agent，并构建了一个模拟小鼠实验的虚拟环境，训练 Agent 在此环境中实现协作。

图｜两个 Agent 分别位于两侧，中央设障碍物分隔，每侧均配备“鼻触口”和“饮水口”。

训练结果超出了研究团队的预期：AI 成功掌握了合作策略，且其行为模式与小鼠高度趋同。在合作阶段正确合作次数持续增加，鼻触间隔集中在 2 个时间步内，且错误次数远低于非合作阶段。

研究团队进一步分析 AI 的神经网络活动，发现 AI 中也存在专门编码自我位置和同伴位置的单元。在合作阶段，编码同伴位置的(de)单(dān)元(yuán)活(huó)性(xìng)显著增强，且其占比与 AI 的合作表现正相关；而在非合作阶段活性则明显减弱。

接下来，研究团队深入研究了 Agent 是否会像动物那样展现出促进合作的行为策略。为此，他们分析了每个 Agent 根据其伙伴位置采取的行动。由于 Agent 可直接“看到”彼此，因此最初团队预计其不会出现(xiàn)像(xiàng)小(xiǎo)鼠(shǔ)实(shí)验(yàn)中(zhōng)观(guān)察(chá)到(dào)的(de)那(nà)种(zhǒng)接(jiē)近(jìn)或(huò)互(hù)动(dòng)行(xíng)为(wèi)。

然(rán)而(ér)结(jié)果(guǒ)出(chū)乎(hu)意(yì)料(liào)，Agent 会(huì)表现出“等待”行为：当同伴距离鼻刺位置较远时，它们会暂停或后退移动。如图所示，两者都试图通过最小化彼此与鼻刺位置的距离差异来主动协调行动。这种主动协调行为出现在正确戳探前，但在错误戳探或非合作状态下则不存在。此外，这种等待行为与个体 agent 更优的合作表现呈正相关。由此可见，这种行为能有效促进 AI agent 的合作行为。

图｜Agent 的运动流场分析。

虽然生物小鼠与人工 Agent 属于两类完全不同的系统，但它们在合作行为中却呈现出惊人的相似性。研究团队认为，这种一致性背后的原因主要有以下三点：

首先是信息依赖。无论是小鼠还是 AI，实时感知同伴状态都是合作的前提。小鼠通过透明隔板获取视觉、嗅觉信号，AI 通过传感器观测同伴位置，一旦这些信息被阻断，合作便会迅速崩溃。

其次是合作策略。成功的合作依赖可学习、可优化的预备策略。无论是小鼠的“接近-等待-互动”，还是 AI 的“静止-靠近-同步”，本质都是通过预备行为降低协调难度，并且这些(xiē)策(cè)略(è)会(huì)随(suí)训(xun)练(liàn)优(yōu)化(huà)。

最(zuì)后(hòu)是(shì)专(zhuān)属(shǔ)单元。生物和 AI 都演化出了专门编码合作相关信息的“单元”：小鼠 ACC 中，有神经元特异性响应正确合作、编码决策；AI 的 RNN 中，有单元专门处理同伴位置、调控合作动作。这些单元的活性与合作表现直接挂钩，抑制或消融它们，合作能力就会受损。

以上研究结果证明，合作并非生物的专属技能，而是一种可计算、可复制的底层逻辑。随着技术发展，或许将来我们能看到基于这种逻辑的 AI，与人类在多种场景中实现真正意义上的协作。

整理：小瑜

上一篇：纳米酶的前沿探索下一篇：颠覆想象！科学家把牙线变成了“无针疫苗”，怎么做到的？

返回列表