首页 >

关于 >

新闻中心 >

公司新闻 >

Science重磅:下一代协作型AI Agent?UCLA团队揭示AI、小鼠的共同合作逻辑

Science重磅:下一代协作型AI Agent?UCLA团队揭示AI、小鼠的共同合作逻辑

发布时间

2025-09-26 18:01:13

作者:科技

分享:

【导语】合作是人类社会基石,对解决冲突、设计更优 AI 系统意义重大。加州大学洛杉矶分校 Weizhe Hong 团队通过对比小鼠与人工 Agent 合作表现,发现二者行为策略和神经表征相似,揭示了合作的可计算、可复制底层逻辑,为打造智能协作型 AI 提供新思路,相关成果发表于《Science》。

图源:Stella Levi

合作是人类社会的基础,理解合作如何产生并维持,不仅对解决冲突、治疗影响社会行为的疾病具有深远意义,也对设计更优的人工智能(AI)系统至关重要。

随着多 AI Agent 系统在自动驾驶、分布式机器人等场景的落地应用,如何让 AI 学会高效合作,已成为突破技术瓶颈的关键。

已有研究表明,人工 Agent 和生物 Agent 可以表现出相似的行为策略和神经表征。这为探索人工 Agent 在交互时如何产生合作行为,以及这类交互是否可能由类似生物系统中的神经网络动态驱动,开辟了新的方向。

今天,加州大学洛杉矶分校助理教授 Weizhe Hong 团队在这一领域取得了新的突破——通过对比小鼠和人工 Agent 在合作任务中的表现,证明 AI 系能够形成与生物大脑中的观察结果相似的行为策略和神经表征。

这项研究首次直接比较了生物大脑和 AI 之间的合作学(xué)习(xí),为(wèi)社(shè)会(huì)行(xíng)为(wèi)中(zhōng)最(zuì)重(zhòng)要(yào)的(de)方(fāng)面(miàn)之(zhī)一(yī)提(tí)供(gōng)了(le)新(xīn)见(jiàn)解(jiě),同(tóng)时(shí)也(yě)为(wèi)人(rén)类(lèi)打(dǎ)造(zào)出(chū)更(gèng)智(zhì)能(néng)的(de)协(xié)作(zuò)型(xíng) AI 提(tí)供(gōng)了(le)全新(xīn)思(sī)路。

相(xiāng)关研(yán)究(jiū)论(lùn)文以(yǐ)“Neural basis of cooperative behavior in biological and artificial intelligence systems”为(wèi)题(tí),已(yǐ)发(fā)表在权威科学期刊 Science 上。

论文链接

https://www.science.org/doi/10.1126/science.adw8151

实验验证:小鼠是如何学会协作的?

为探究生物合作的底层逻辑,研究团队设计了一次小鼠合作实验。实验选用 8 周龄的 C57BL/6J 小鼠,将其两两配对,放置在中间有透明带孔分隔板的实验舱内。分隔板的设计很关键,既让两只小鼠能通过视觉、嗅觉和轻微肢体接触感知彼此,又避免了直接肢体干扰。

图|小鼠合作实验中实验舱示意图。

实验的核心任务是同步鼻触:每只小鼠所在的舱室都有一个鼻触口和一个饮水口,只有当(dāng)两(liǎng)只(zhǐ)小(xiǎo)鼠(shǔ)在(zài)规(guī)定(dìng)时(shí)间窗口内先后完成鼻触动作,才能同时获得饮水奖励;若仅有一只小鼠鼻触,或超出时间窗口,双方都无法得到奖励。为逐步提升合作难度,研究团队将时间窗口从初始的 3 秒,逐步缩短至 1.5 秒,最终定为 0.75 秒,以此考验小鼠的协调精度。

在正式实验前,研究团队先对单只小鼠进行“预训练”,让它们学会将鼻触动作与饮水奖励关联,同时剔除鼻触动机极低的个体,确保实验数据的有效性。训练阶段则分为三个阶段,分别对应 3 秒、1.5 秒和 0.75 秒的时间窗口,三个合作阶段分别包含 5 次、10 次和 15 次每日训练,每次训练持续 30 分钟。

经过系统训练,76% 的小鼠的合作表现显著超过随机水平。研究团队进一步通过打乱数据法判断随机水平:将一只小鼠的鼻触时间固定,随机打乱另一只的鼻触序列,计算此时的正确合作概率。对比发现,真实实验中小鼠的正确合作次数远高于随机数据,且错误次数更少,这说明它们是通过主动协调来达成合作。在表现超随机水平的小鼠中,41% 属于“高表现组”。随着训练推进,错误合作次数持续减少,鼻触间隔也不断缩短。

图|对照实验的实验结果。

为进一步验证“主动协调”的必要性,研究团队设计了三组对照实验:一是将透明分隔板换成不透明板,阻断视觉信号;二是让小鼠“各自为战”,达成单独鼻触即可获得奖励;三是“单方合作”,仅一只小鼠需依赖同步鼻触获奖励,另一只可单独获奖励。

结果显示,这三种情况下,小鼠的合作指数均大幅下降,尤其是不透明板组,等待和互动行为几乎完全消失,充分证明小鼠的合作依赖对同伴信息的感知和互利动机。

这些证据共同表明,这种合作行为并非源于独立的基于时间的决策、简单的模仿行为、偶然动作或依赖社会线索的决策。相反,两只动物都正确遵循规则,并根据伙伴的社会信息和互利关系主动协调行动,才能实现成功的合作。

关键因素:前扣带回皮层

小鼠的协作行为背后,究竟是哪个脑区在“发号施令”?

研究团队将目光锁定在前扣带回皮层(ACC)。ACC 位于大脑额叶中部,此前研究已发现它与情绪处理、社会决策等功能相关,但在合作行为中的具体作用尚不明确。

为观察 ACC 的神经活动,研究团队采用了微型内窥镜钙成像技术。他们先向小鼠的 ACC 区域注射表达荧光钙离子指示剂(GCaMP7f),通过实时记录钙信号变化,追踪单个神经元的活动。最终成功记录了 17 对小鼠共 12798 个 ACC 神经元的活动数据。

图|小鼠执行合作任务时 ACC 的神经活动(A);对 17 对小鼠的 12798 个神经元进行神经活动记录(B-D)。

分析发现,ACC 神经元对合作事件具有高度特异性响应:一部分神经元仅在正确合作时激活,另一部分则只对错误合作有反应,且响应正确事件的神经元数量明显更多。正确事件响应神经元的占比,与小鼠的合作表现呈正相关:高表现组小鼠的 ACC 中,这类神经元的比例显著高于普通组。说明 ACC 对成功合作的编码能力,直接影响合作效果。

图|在合作条件下对正确或错误试验产生反应的神经元,在不透明分隔板条件下仅表现出微弱的神经活动;相反,另一组基本独立的神经元则对自发触鼻行为产生反应。

研究还发现,ACC 不仅能识别合作结果,还能编码合作中的关键决策。通过支持向量机(SVM)解码 ACC 神经信号,研究团队能准确区分这两种决策状态,证明 ACC 是合作决策的“大脑”。

通过 SLEAP 姿态追踪技术,研究团队还拆解出小鼠合作的三大核心策略:

接近:小鼠会主动靠近分隔板,在鼻触前 2 秒内,向同伴一侧移动的频率显著增加;等待:当一只小鼠先到达鼻触端口,会在社交区域停留,直到同伴靠近再行动;互动:两只小鼠会通过隔板两侧的鼻端接触交流,且互动角度从初始的 180 度(dù)逐(zhú)步(bù)优(yōu)化(huà)为(wèi) 120 度(dù),既(jì)能(néng)保(bǎo)持(chí)对(duì)同(tóng)伴(bàn)的(de)感(gǎn)知(zhī),又(yòu)能(néng)快(kuài)速(sù)切(qiè)换(huàn)到(dào)鼻(bí)触(chù)动(dòng)作(zuò),策(cè)略(è)精(jīng)度(dù)持(chí)续(xù)提(tí)升(shēng)。

行(xíng)为(wèi)相(xiāng)似(shì):AI 复(fù)刻(kè)小(xiǎo)鼠(shǔ)合(hé)作(zuò)逻(luó)辑(ji)

在(zài)揭(jiē)示(shì)小(xiǎo)鼠(shǔ)的合作机制后,研究团队将研究范围拓展至生物系统之外,深入探究合作机制在 AI 系统中的形成及其运作方式。

研(yán)究(jiū)团(tuán)队(duì)基(jī)于(yú)多(duō) Agent 强化学习(MARL)框架,利用循环神经网络(RNN)开发了两个 Agent,并构建了一个模拟小鼠实验的虚拟环境,训练 Agent 在此环境中实现协作。

图|两个 Agent 分别位于两侧,中央设障碍物分隔,每侧均配备“鼻触口”和“饮水口”。

训练结果超出了研究团队的预期:AI 成功掌握了合作策略,且其行为模式与小鼠高度趋同。在合作阶段正确合作次数持续增加,鼻触间隔集中在 2 个时间步内,且错误次数远低于非合作阶段。

研究团队进一步分析 AI 的神经网络活动,发现 AI 中也存在专门编码自我位置和同伴位置的单元。在合作阶段,编码同伴位置的(de)单(dān)元(yuán)活(huó)性(xìng)显著增强,且其占比与 AI 的合作表现正相关;而在非合作阶段活性则明显减弱。

接下来,研究团队深入研究了 Agent 是否会像动物那样展现出促进合作的行为策略。为此,他们分析了每个 Agent 根据其伙伴位置采取的行动。由于 Agent 可直接“看到”彼此,因此最初团队预计其不会出现(xiàn)像(xiàng)小(xiǎo)鼠(shǔ)实(shí)验(yàn)中(zhōng)观(guān)察(chá)到(dào)的(de)那(nà)种(zhǒng)接(jiē)近(jìn)或(huò)互(hù)动(dòng)行(xíng)为(wèi)。

然(rán)而(ér)结(jié)果(guǒ)出(chū)乎(hu)意(yì)料(liào),Agent 会(huì)表现出“等待”行为:当同伴距离鼻刺位置较远时,它们会暂停或后退移动。如图所示,两者都试图通过最小化彼此与鼻刺位置的距离差异来主动协调行动。这种主动协调行为出现在正确戳探前,但在错误戳探或非合作状态下则不存在。此外,这种等待行为与个体 agent 更优的合作表现呈正相关。由此可见,这种行为能有效促进 AI agent 的合作行为。

图|Agent 的运动流场分析。

虽然生物小鼠与人工 Agent 属于两类完全不同的系统,但它们在合作行为中却呈现出惊人的相似性。研究团队认为,这种一致性背后的原因主要有以下三点:

首先是信息依赖。无论是小鼠还是 AI,实时感知同伴状态都是合作的前提。小鼠通过透明隔板获取视觉、嗅觉信号,AI 通过传感器观测同伴位置,一旦这些信息被阻断,合作便会迅速崩溃。

其次是合作策略。成功的合作依赖可学习、可优化的预备策略。无论是小鼠的“接近-等待-互动”,还是 AI 的“静止-靠近-同步”,本质都是通过预备行为降低协调难度,并且这些(xiē)策(cè)略(è)会(huì)随(suí)训(xun)练(liàn)优(yōu)化(huà)。

最(zuì)后(hòu)是(shì)专(zhuān)属(shǔ)单元。生物和 AI 都演化出了专门编码合作相关信息的“单元”:小鼠 ACC 中,有神经元特异性响应正确合作、编码决策;AI 的 RNN 中,有单元专门处理同伴位置、调控合作动作。这些单元的活性与合作表现直接挂钩,抑制或消融它们,合作能力就会受损。

以上研究结果证明,合作并非生物的专属技能,而是一种可计算、可复制的底层逻辑。随着技术发展,或许将来我们能看到基于这种逻辑的 AI,与人类在多种场景中实现真正意义上的协作。

整理:小瑜

相关新闻

返回顶部