AI大狗
已收录一千多项AI工具
返回资讯资讯详情
英伟达开源机器人技能库ASPIRE:Jim Fan称其代表全新持续学习范式,训练不再只是梯度下降

英伟达开源机器人技能库ASPIRE:Jim Fan称其代表全新持续学习范式,训练不再只是梯度下降

全新的持续学习范式

2026-07-01AI大狗3 分钟阅读10896121 阅读热度 695大模型应用落地开源项目
01

导读

英伟达近日开源了一套名为ASPIRE的机器人技能库,旨在让机器人能够像人类工程师一样,通过反复试错和总结经验实现持续学习。英伟达机器人研究主管Jim Fan表示,ASPIRE代表了一种全新的持续学习范式,训练过程从传统的梯度下降转变为不断打磨技能,训练产物也不再是模型权重,而是一个持续扩展的机器人技能库。

英伟达开源机器人技能库ASPIRE:Jim Fan称其代表全新持续学习范式,训练不再只是梯度下降閰嶅浘1
02

什么是ASPIRE?

ASPIRE的全称是Agentic Skill Programming through Iterative Robot Exploration。它允许机器人用代码执行任务,在失败后通过分析多模态执行轨迹来修正程序,并将验证过的修复经验沉淀为可复用的技能。这些技能本质上是供大模型使用的上下文,但其中蕴含了经过验证的代码修复模式,使机器人能够在遇到类似问题时直接调用,无需重新试错。

例如,当机器人试图拿起一个收音机但无法靠近时,ASPIRE能够分析出问题并非识别错误,而是规划器给出的目标点落在了障碍物的碰撞缓冲区内。基于此,系统会总结出一条新技能:如果遇到规划失败,尝试从45°、90°、180°等不同角度重新接近目标,直到找到无碰撞路径。此后,无论目标换成微波炉还是其他家具,这条经验都可以直接复用。

03

从“Code as Policy”到持续学习

ASPIRE建立在近期兴起的“Code as Policy”范式之上。与端到端的视觉-语言-动作模型不同,Code as Policy让大模型编写可执行的机器人控制程序,调用感知、规划和控制原语。然而,之前的Code as Policy存在两个主要问题:一是系统只知道任务失败,却无法定位具体环节;二是系统不会积累经验,每次失败后修复方案都会被丢弃。

Jim Fan指出,ASPIRE解决了这些问题,使得机器人完成第100个任务时不再像完成第1个任务时那样一无所知。整个过程类似于人类机器人工程师的工作流程:回放执行过程、分析失败原因、记录修复经验,下次遇到类似问题即可直接应用。

04

三阶段流水线

ASPIRE的实现分为三个阶段。首先是机器人执行引擎,它将每次任务的感知、规划、抓取等操作细节记录下来,包括输入、输出、视觉证据和错误日志。其次是技能库,代理在修复程序后不会丢弃经验,而是将其提炼为可复用的知识,例如“桌边物体要多角度接近”或“抽屉把手怎么过滤假检测”。最后是进化搜索,系统生成多条候选控制程序,让它们在执行环境中运行,并根据结果迭代优化。

05

实验验证

研究团队在三个经典机器人基准上测试了ASPIRE,包括LIBERO-Pro、Robosuite和BEHAVIOR-1K,覆盖泛化操作、接触密集型操作和长时家庭任务。在Robosuite的双臂物体交接任务中,ASPIRE将成功率从20%提升至92%。在泛化能力测试中,研究先在LIBERO-90上积累技能库,然后直接迁移到未见过的LIBERO-Pro Long任务。结果显示,随着技能库的丰富,机器人在新任务上的成功率从几乎为零提升至31%。

06

团队与招聘

ASPIRE由英伟达GEAR团队主导,成员包括Jim Fan、朱玉可、Guanzhi Wang、石冠亚等。排在前三位的共同贡献者中,Runyu Lu是密歇根大学博士二年级学生,正在GEAR实习;Yuubo Wu来自伊利诺伊大学厄巴纳-香槟分校;Ethan Kou来自加州大学伯克利分校,目前还是一名本科生。值得一提的是,就在ASPIRE发布前一天,英伟达宣布扩大国内机器人团队招聘,在北京、上海、深圳三地开放了多个岗位,覆盖具身智能、仿真、机器人部署和解决方案架构等方向。

文章来源:https://aidadog.com/news/ai/o2lrar98nptf9ieqs4iwq5so

同类推荐

继续阅读

查看更多