ARCap 助力机器人学习:打破数据采集困境

发布时间:2025-01-12 08:18

无人机测绘,进行地理信息数据采集 #生活知识# #科技生活# #科技改变生活# #无人机应用#

ARCap: Collecting High-quality Human Demonstrations for Robot Learning with Augmented Reality Feedback

论文标题:ARCap: Collecting High-quality Human Demonstrations for Robot Learning with Augmented Reality Feedback

论文作者:Sirui Chen, Chen Wang∗, Kaden Nguyen, Li Fei-Fei, C. Karen Liu

1、研究背景

如今,机器人在我们生活中的应用越来越广泛,尤其是在协助完成家务等任务方面,有着巨大的潜力。想象一下,要是有机器人能帮我们打扫房间、整理物品,那该多方便啊!但要让机器人做到这些,它们必须学会在复杂多变的环境中操作各种日常物品。

在机器人学习的过程中,模仿学习是一种很有效的方法。简单来说,就是让机器人模仿人类的动作来学习技能。以前呢,有一种方式是通过远程操作机器人系统来收集人类演示数据,这些数据能提供精确的动作信息,帮助机器人学习。可是,这种方法有个大问题,它需要专门的机器人系统和熟练的操作人员,这就使得数据收集的成本很高,而且很难大规模开展。

后来又诞生了便携式数据收集系统,这种系统不需要物理机器人硬件,利用人类的灵活性直接在真实环境中操作物体,从而创建大规模的数据集。但它也有麻烦的地方,因为没有机器人硬件的实时反馈,收集到的数据能不能用于训练机器人策略并不清楚。而且,人类和机器人的身体结构不一样,收集到的数据要经过复杂的处理,比如数据重定向、在实际机器人上验证,最后才能用于训练机器人策略。如果其中某个环节出了问题,比如数据重定向时不符合机器人的关节和速度限制,或者在验证阶段发生碰撞,又或者训练数据无效,都会导致整个过程失败。

2、系统简介

面对这些问题,科学家们就思考:能不能在数据收集的时候,就告诉用户可能出现的问题,让他们调整,从而收集到更高质量的数据呢?于是,ARCap系统就诞生了。

ARCap是一个基于增强现实(AR)的系统,它有很多厉害的功能。比如说,它能实时反馈机器人的状态,通过可视化的方式让用户看到机器人的运动情况,就好像有个虚拟机器人在眼前一样。这样一来,用户就能根据反馈调整自己的动作,收集到高质量且适合机器人执行的演示数据。而且,它还支持不同类型的机器人执行器,像平行夹爪和多指灵巧手等,用户用同一个系统就能为不同机器人收集数据。另外,它是便携式的,自带电源、存储设备和无线跟踪功能,可以在任何地方收集数据。

▲图1 | ARCap 系统概述©️【深蓝AI】编译

(一)实时反馈

在ARCap系统中,实时反馈是非常关键的部分。它通过视觉和触觉两种方式给用户提示。

1. 实时可见性检查:在模仿学习中,经常会出现操作场景不在机器人摄像头视野内的情况。因为机器人用的RGB - D摄像头视野比较窄,而数据收集用的摄像头视野可能不同。所以,ARCap系统会在画面中渲染一个矩形框,显示RGB - D摄像头的实际视野。用户在收集数据的时候,就得让操作场景一直在这个框里,这样才能保证视觉数据被正确记录。

2. 实时重定向:不同机器人的运动学特性和人类手臂不一样。ARCap系统会在AR中渲染一个虚拟机器人,并将其运动重定向到用户手上。比如,当用户用手操作物体时,虚拟机器人会模拟相应动作。如果用户的动作超出了机器人的运动学限制,比如移动太快,虚拟机器人就跟不上,这时矩形框会闪烁黄色提醒用户。而且,每个机器人关节都有速度限制,虚拟机器人也会遵守,不会超速跟踪用户输入。

3. 实时碰撞检查:为了避免机器人在实际操作中与环境碰撞,ARCap系统会检查虚拟机器人和实际场景之间的碰撞。由于通过穿透式摄像头人类很难准确感知深度,所以系统在检测到碰撞时,不仅会在画面中闪烁提示,还会通过安装在手套上的控制器产生触觉振动,让用户及时调整动作,给机器人留出足够的空间。

▲图2 | AR 反馈的具象化©️【深蓝AI】编译

(二)跨执行器功能

ARCap系统的另一个亮点是跨执行器功能。它可以在不修改硬件的情况下,为不同机器人执行器收集数据。比如对于Franka Panda手臂上的不同执行器,像Leap Hand多指灵巧手和Fin - ray平行夹爪,系统有不同的重定向方法。对于多指灵巧手,通过逆运动学将机器人指尖与人类指尖匹配;对于平行夹爪,用户用食指和拇指模仿夹爪动作,系统根据手指距离确定夹爪状态。

(三)便携式和可重现设计

ARCap系统设计得既低成本又方便携带,还容易校准。它主要围绕Meta Quest 3 VR头显构建,头显既作为反馈显示设备,又作为传感器枢纽,提供空间跟踪。通过3D打印支架在头显上安装RealSense D435摄像头来捕捉3D视觉信息,存储为点云。手腕和手部运动则通过Quest 3控制器和Rokoko数据手套来捕捉,利用头显的SLAM功能在世界坐标系中获取视觉和运动数据。为了简化校准过程,摄像头直接安装在头显上,控制器通过独特的3D打印支架固定在手套上,这样以后的设置就可以复用校准参数。整个系统可以装在背包里,不需要外部基础设施就能进行数据收集。

3、实验验证

为了验证ARCap系统的有效性,科学家们做了一系列实验。

(一)用户研究

他们邀请了20名参与者,让他们分别使用ARCap系统(有视觉和触觉反馈)和之前的DexCap系统(没有反馈)来收集数据。参与者的背景各不相同,其中一半没有数据收集或机器人学习经验。测试任务包括用多指灵巧手在杂乱环境中捡起网球和用平行夹爪组装单个乐高积木。每个任务有3个初始状态,每个状态下参与者要收集3条轨迹。结果显示,ARCap系统在轨迹重放成功率和场景可见率方面比DexCap系统高出很多。在评估中发现,ARCap系统能有效避免碰撞和运动学限制导致的失败,而且大多数参与者认为视觉和触觉反馈有助于改进数据收集策略。

(二)杂乱环境操作

为了检验ARCap系统收集的数据是否能帮助机器人在杂乱环境中操作,科学家们用两个系统分别收集了30分钟的数据集,并训练了相应的扩散策略。结果表明,ARCap系统的成功率比DexCap系统高出35%,而且在测试ARCap策略时没有发生碰撞。此外,将用户研究中首次使用用户众包收集的30分钟数据合并训练策略,ARCap策略在3个指定初始状态下的成功率达到60%,而DexCap策略每次试验都失败。

(三)不同执行器的长时域操作

在这个实验中,科学家们用一个具有挑战性的三阶段乐高积木组装任务来测试ARCap系统。他们用DexCap和ARCap分别收集了一小时的人类操作数据集,并训练了相应策略。在不同阶段的独立评估中,ARCap在各个阶段的成功率分别达到70%、80%和85%。在全自主组装评估中,ARCap策略的成功率为40%,比DexCap策略平均高出51%。而且,策略还能在人类拆卸乐高塔时做出反应。

▲图3 | 实验任务概述©️【深蓝AI】编译

4、总结与展望

通过这些实验可以看出,ARCap系统确实是一个非常了不起的创新。它让没有经验的用户也能收集到高质量的数据,这些数据可以用于训练机器人在杂乱环境中操作,还能实现跨执行器的长时域操作。这意味着机器人学习领域又向前迈进了一大步,未来机器人能做的事情会越来越多,也会越来越智能。

展望未来,科学家们还计划在反馈和重定向过程方面进行更多设计,比如让ARCap系统能够记录人类躯干运动,这样就可以为移动机器人或类人机器人收集数据。另外,现在用户是被动地根据反馈改进数据收集策略,以后可能会利用视觉语言模型(VLM)为用户提供主动改进的指导,进一步提高数据收集的效率和质量。相信在不久的将来,ARCap系统会不断完善,为我们的生活带来更多的便利和惊喜。今天就给大家介绍到这里,如果你对机器人技术感兴趣,记得持续关注哦!

网址:ARCap 助力机器人学习:打破数据采集困境 https://www.yuejiaxmz.com/news/view/696877

相关内容

手机联网数据采集:我的数据故事
稚晖君开源百万机器人真机数据集
人工智能数据采集
买房助手产品思路:大数据+机器学习=AI置业顾问
买房助手产品思路:大数据+机器学习=AI置业顾问 – 人人都是产品经理,
打破失眠困境,重拾优质睡眠
重磅!稚晖君开源百万机器人数据集,具身智能的ImageNet时刻来了
社交辅助机器人帮助自闭症儿童学习
深度学习垃圾分类数据集
IOT数据采集平台:物联网时代的数据引擎

随便看看