清华AIR DISCOVER Lab投稿
量子位 | 公众号 QbitAI

在具身智能训练中,“把计算全部塞进GPU”似乎成了唯一的提速密码,机器人运控并行训练的框架,IsaacLab、MuJoCoPlayground、mjlab都默认遵循这一范式,这些系统都牢牢绑定在NVIDIA生态中。

清华大学智能产业研究院(AIR)DISCOVER Lab联合清华、上交、上海创智学院等多所高校和谋先飞技术、求之科技、原力灵机,正式推出了全新的机器人强化学习训练架构——UniLab



团队另辟蹊径,通过大胆重构系统结构,打破了“GPU包揽全部”的潜规则,为具身智能打造了全新一代“CPU高效仿真+GPU策略训练”的异构高吞吐训练底座,在多项运控任务训练上实现了数倍效率提升。

布局全景:异构并行与多任务泛化架构

UniLab从底层重新组织了仿真、数据采集与策略学习之间的系统结构。


△UniLab系统架构图

核心突破1:异构流水线重叠,大幅消除计算资源“干等空转”

传统GPU管线将物理步进与策略学习同步串行执行,所有的计算都放在GPU上,导致显卡和多核CPU出现“一方计算、一方闲置”的资源闲置。


△UniLab单周期流水线时序

核心突破2:3至10倍端到端加速,异构解耦换来系统级提速

传统GPU管线将仿真和学习绑在同一块显卡上,资源互相争抢。

UniLab用实测数据证明,将仿真解耦到CPU侧并通过运行时协调,可以带来显著的端到端墙钟时间(Wall-clock Time)收益:


△端到端训练效率对比曲线

核心突破3:不绑定CUDA,Mac也能本地高效调训人形机器人

UniLab彻底去除了对特定硬件的硬编码依赖,让机器人强化学习训练走向大众化:


△多任务应用场景 collage

开源与未来探索

UniLab现已正式开源

未来项目将围绕接触密集型灵巧操作的物理保真度评测、算法benchmark、以及多模态触觉策略等方向持续迭代,将UniLab从一个高效训练系统进一步扩展为通用的机器人学习研究平台

项目主页:https://unilabsim.github.io
论文链接:https://arxiv.org/abs/2605.30313
代码仓库:https://github.com/unilabsim/UniLab