< 许华哲研究组发布新型视觉模仿学习算法:3D扩散策略(DP3)论文被机器人顶会RSS接收_新闻中心_华体育app官网登录|华体会手机版
2024-07-22 新闻中心

  模仿学习为教授机器人灵巧技能提供了一种高效的方法,然而,鲁棒性地学习复杂技能并使其具有可泛化性常常要大量的专家演示数据。未解决这一挑战性问题,许华哲团队提出了3D扩散策略(DP3),这是一种新颖的视觉模仿学习方法,极大地提高了视觉模仿学习的学习效率和泛化能力。在涉及72个模拟任务的实验中,DP3仅通过10条演示数据就成功完成了大多数任务,并且相对于当前SOTA模型有24.2%的成功率相对提升。在4个很具有挑战性的线展示了精确的控制能力,并在空间、视角、外观和实例等多个角度显示出优秀的泛化能力。该论文被国际机器人顶级会议Robotics: Science and Systems(RSS)接收(2024年仅收录135篇)。

  3D 扩散策略(DP3)是一种专为提高机器人的模仿学习效率和泛化能力设计的新型模仿学习算法。DP3 通过融合简洁高效的 3D 视觉表征和扩散模型来实现对复杂机器人操作的学习和执行。DP3 在处理稀疏点云数据时采用了高效的点云编码器来提取紧凑的 3D 视觉表征,并在此基础上从随机噪声中降噪得到连贯的动作序列。通过在仿真和真实物理数据环境中的广泛测试,DP3 展示了其在少量专家演示数据下快速学习并成功处理多项任务的能力,显著优于当前的SOTA方法。

  在仿线 个不同的任务,覆盖从简单的物体操作到复杂的双手协调等多种机器人技能。实验结果为,DP3仅通过10条演示数便可以成功执行大多数操作任务,并且相对于当前SOTA模型有24.2%的性能相对提升。同时,在线 在四个不同的任务上进行了测试,这些任务涉及精细的物体操控和动态交互。DP3 展示了其在实际应用中的高度可行性和效率,依赖其稳定的 3D 视觉表征和动作生成策略,能轻松实现高达 85% 的成功率。

  图2: 3D 扩散策略 (DP3) 是一种视觉模仿学习算法,它将 3D 视觉表征与扩散策略结合起来,在72个模拟任务和4个很具有挑战性的真实世界任务中取得了卓越的效果,并具有优于2D的推理速度和很强的泛化能力。

  DP3 在多个角度显示出优异的泛化能力,包括空间泛化、外观泛化、实例泛化和视角泛化,如下方视频展示。这一广泛的泛化能力证明了 DP3 在真实世界应用中的潜力,尤其是在面对环境变化和新任务时。DP3为教授机器人掌握鲁棒且泛化的灵巧技能提供了有效方法,并大幅度的提升了学习效率。

  该论文的通讯作者是清华大学交叉信息研究院的许华哲助理教授,共同第一作者为上海期智研究院研究助理迮炎杰和清华大学交叉信息研究院预研生张谷,其他作者还包括上海期智研究院实习生张康宁和清华大学交叉信息研究院本科生胡宸源、王慕涵。论文的代码和数据均已开源,Github开源仓库已获星标200+。

  许华哲是清华大学交叉信息研究院助理教授,清华具身智能实验室(TEA Lab)的负责人。他博士毕业于美国加州大学伯克利分校,博后曾就职于美国斯坦福大学。曾获顶级智能机器人会议CoRL23最佳系统论文,在IJRR, RSS,NeurIPS等发表顶级期刊/会议论文五十余篇。

  许华哲助理教授目前主持清华具身智能实验室(Tsinghua Embodied AI Lab,简称TEA Lab),目前该实验室的主要目标是使机器人能在任何场景、任何条件(如视角、光照、遮挡等)、对任何物体、任何物体状态做相关操作。朝着这一目标,实验室着重关注1. 策略泛化性研究;2. 模仿学习和强化学习算法的数据效率和规模效应;3. 无仿线. 多模态机器人数据和数据采集方式;5. 复杂机器人操作任务(如全身控制的移动操作、灵巧手操作、软体操作等)。

CONTACT US
欢迎随时与我们联系