2025-10-19 09:31:10
作者:科技
分享:
【导(dǎo)语(yǔ)】近(jìn)年(nián)来(lái)AI进(jìn)化(huà)迅(xùn)猛(měng),但(dàn)要(yào)真(zhēn)正(zhèng)走(zǒu)进(jìn)物(wù)理(lǐ)世(shì)界(jiè),具(jù)身(shēn)智(zhì)能(néng)面(miàn)临(lín)“物(wù)理(lǐ)鸿(hóng)沟(gōu)”。近(jìn)日(rì)北(běi)京(jīng)人(rén)形(xíng)机(jī)器(qì)人(rén)创(chuàng)新(xīn)中(zhōng)心(xīn)开(kāi)源(yuán)具(jù)身(shēn)世(shì)界(jiè)模(mó)型WoW,它以高质量交互数据为基,通过独特构建思路与“自学方法”,实现从想象到执行的跨越,具备强大泛化能力,有望让机器人成为人类探索、建设世界的伙伴。

近年来,AI的(de)进(jìn)化(huà)让(ràng)人(rén)目(mù)不(bù)暇(xiá)接(jiē)。从(cóng)GPT系(xì)列(liè)“读(dú)懂(dǒng)语(yǔ)言(yán)”,到(dào)Sora系(xì)列(liè)“看(kàn)世(shì)界(jiè)”,我(wǒ)们(men)一(yī)次(cì)次(cì)被(bèi)AI惊(jīng)人(rén)的(de)能(néng)力(lì)所(suǒ)震(zhèn)撼(hàn)。但(dàn)一(yī)个(gè)更(gèng)深(shēn)刻(kè)的(de)问(wèn)题(tí)随(suí)之(zhī)而(ér)来(lái):如(rú)果(guǒ)AI要(yào)真(zhēn)正(zhèng)走(zǒu)进(jìn)物(wù)理(lǐ)世(shì)界(jiè),成(chéng)为(wèi)能(néng)洗衣、做饭、装配的机器人,它需要什么?
波士顿动力的机器人可以后空翻,北京人形机器人创新中心(以下简称“北京人形”)的“具身天工Ultra”也能跑完半程马拉松。这些“体能”上的飞跃肉眼可见。然而,让机器人完成一个后空翻很难,但让它“理解”面前的水杯为什么倒下后水会洒出来,或许更难。这,就是具身智能面临的“物理鸿沟”。
近日,“北京人形”开源了其全新的(de)具(jù)身(shēn)世(shì)界(jiè)模(mó)型(xíng)——WoW(World-Omniscient World Model)。“WoW就(jiù)是(shì)为(wèi)了(le)让(ràng)机(jī)器(qì)人(rén)‘理(lǐ)解(jiě)物(wù)理(lǐ)世(shì)界(jiè)’,并(bìng)且(qiě)给(gěi)到(dào)算(suàn)法(fǎ)触(chù)摸(mō)世(shì)界(jiè)的(de)双(shuāng)手(shǒu)。”北(běi)京(jīng)人(rén)形(xíng)相(xiāng)关技(jì)术(shù)人(rén)员(yuán)说(shuō)。
为(wèi)什(shén)么(me)“以(yǐ)假(jiǎ)乱(luàn)真(zhēn)”还(hái)不(bù)够(gòu)?
Sora 2的(de)出(chū)现(xiàn),确(què)实(shí)让(ràng)AI成(chéng)了(le)个出色的“电影导演”,它拍出的“大片”逼真到让人惊叹。但在具身智能领域,一个机器人不能只当“观众”或“导演”,它还要当“物理学家”,因为“看起来真实”和“物理上正确(què)”是(shì)两(liǎng)码(mǎ)事(shì)。
**机(jī)器(qì)人(rén)需(xū)要(yào)的(de),是(shì)对(duì)“时(shí)序(xù)一(yī)致(zhì)性(xìng)”和(hé)“物(wù)理(lǐ)因(yīn)果(guǒ)链(liàn)”的(de)统(tǒng)一(yī)。**比(bǐ)如(rú)一(yī)个(gè)东(dōng)西(xi)被(bèi)推(tuī)了(le),它(tā)应(yīng)该(gāi)往(wǎng)哪(nǎ)儿(ér)倒(dào);一(yī)个(gè)杯(bēi)子(zi)倒(dào)了(le),水(shuǐ)必(bì)须(xū)洒出来。Sora 2或许能生成一个“看起来”很酷的机器人动作,但WoW要确保这个动作符合牛顿的规矩。
“相较于Sora 2,WoW具身世界模型在模拟机器人操作的时空一致性、物理推理能力表现更为出色。”北京人形相关技术人员表示。
在素材的对比测试中,无论是让模型模拟“依次抓取火方块、柔性方块、水方块”,还是“打开一本图书”,WoW生成的模拟结果在物理交互的准确性上,都显现出优势。
这种差异的背后,源于WoW不同的构建思路。它不是一个单纯的视频生成器,而是一个被设计为“物理引擎+想象系统”的DiT(Diffusion Transformer)世界生成基座模型。**它的核心任务是根据环境状态与历史帧,预测未来场景、推演物理演化,并还原动态的因果链。要实现这一点,数据是关键。**WoW的学习材料并非来自互联网上的海量视频,而是来自一个更专注的数据库。“北京人形”相关技术人员表示,他们从800万条海量的“机器(qì)人(rén)与(yǔ)物(wù)理(lǐ)世(shì)界(jiè)交(jiāo)互(hù)轨(guǐ)迹(jī)”中(zhōng),通(tōng)过(guò)自(zì)建(jiàn)的(de)数(shù)据(jù)优(yōu)化(huà)精(jīng)炼(liàn)管(guǎn)线(xiàn),筛(shāi)选(xuǎn)出(chū)了(le)200万(wàn)条(tiáo)高(gāo)质(zhì)量(liàng)的(de)训(xun)练(liàn)集。这(zhè)种(zhǒng)“交(jiāo)互(hù)数(shù)据(jù)”而(ér)非(fēi)“观(guān)察(chá)数(shù)据(jù)”,可(kě)能(néng)是(shì)WoW理(lǐ)解(jiě)物(wù)理(lǐ)的(de)关键。
此(cǐ)外(wài),该团队还验证了模型规模与性能的“幂律增长”关系。他们训练了从1.3B(“B”代表十亿)、2B、7B到14B参数的全系列模型。研究结果证明:“随着模型规模提升,物理一致性与生成稳定性以及泛化性呈显著上升趋势。”
如何让模型“自己教自己”?
如果说庞大且高质量的交互数据是“教材”,那么WoW的核心创新之一,就是一套名为SOPHIA(Solver-Critic-Refiner)的“自学方法”。“北京人形”在其研究中称,这是“业内首次提出SOPHIA框架,让世界模型‘自己教自己’。”
这套机制,试图模拟人类“想象-验证-修正-再想象”的核心智能特征。它由两个关键部分组成,形(xíng)成(chéng)了(le)一(yī)个(gè)“生(shēng)成(chéng)-批(pī)评(píng)-改(gǎi)进(jìn)”的(de)闭(bì)环(huán)优(yōu)化(huà)过(guò)程(chéng)。
但(dàn)光(guāng)会(huì)“想(xiǎng)”还(hái)不(bù)行(xíng),机(jī)器(qì)人(rén)必(bì)须(xū)能(néng)“做(zuò)”。WoW系(xì)统(tǒng)的(de)另(lìng)一(yī)大(dà)支(zhī)柱(zhù),是(shì)FM-IDM逆(nì)动(dòng)力(lì)学(xué)模(mó)型(xíng)(Flow-Mask Inverse Dynamics)。这正是那双“触摸世界的双手”。**它的作用,是将在“想象”中生成的视频翻译成真实世界中可执行的机器人指令。**通过给定连续两帧预测视频,FM-IDM能够计算出机器人末端执行器的动作变化量,类似AI在脑子里想好了“手从A点移动到B点”的画面,FM-IDM就能反推出“机械臂关节需要旋转X度、Y度”的具体指令。技术人员解释说,“这标志着真正实现从生成到执行的跨越。”
开源一个“具身大脑”意味着什么?
一个模型是否真正理解了规律,最好的检验标准是“泛化能力”。“WoW不是在记忆训练场景,而是在学习‘物理规律的抽象本质’。”“北京人形”在报告中强调,模型具备“跨机器人形态泛化、任务泛化、场景泛化全方位能力”。
“北京人形”相关技术人员表示,WoW的泛化能力体现(xiàn)在(zài)多(duō)个(gè)层(céng)面。**在“域内”,它可以生成长程、复杂的任务视频,例如“打开洗碗机”,乃至“依次按下红色按钮,收拾餐具,按下绿色开关”这样的多步任务。在“域外”,它能(néng)将(jiāng)其(qí)学(xué)到(dào)的(de)知(zhī)识(shi),应(yīng)用到未曾见过的机器人本体和场景上。**例如,生成“具身天工2.0”机器人(未用于训练)执行“把橙子放进盘子里”“倒酒”等任务的视频。
“我们希望WoW能成为世界模型的研究基础设施。”“北京人形”技术人员展望道。在他们看来,WoW一方面可以实现“自我造数”(AI拥有“自我造数”能力),解决数据稀缺问题;另一方面,它打通了“从视觉‘想象’中反推真实可执行的动作指令”的通路,使机器人在抓取、装配等任务上的自主能力有望大幅提升。
“WoW通过系统性结合完成了‘想象世界→理解物理→生成视频→执行动作→再学习’的逻辑闭环。”“北京人形”技术人员说。此前,该中心已经展示了其在“能跑”和“好用”方面的实力,而WoW的开源,则补全了“大脑”层面的关键拼图。通过此次研究,也相信北京人形机器人将持续开源开放,助力行业打造最能跑最好用的具身智能机器人。或许在不远的将来,AI不再只是“模拟人”,而是与人类共同探索世界、建设世界的伙伴。
撰文:记者 段大卫
编辑:段大卫