英伟达开源机器人技能库ASPIRE：Jim Fan称其代表全新持续学习范式，训练不再只是梯度下降

导读

英伟达近日开源了一套名为ASPIRE的机器人技能库，旨在让机器人能够像人类工程师一样，通过反复试错和总结经验实现持续学习。英伟达机器人研究主管Jim Fan表示，ASPIRE代表了一种全新的持续学习范式，训练过程从传统的梯度下降转变为不断打磨技能，训练产物也不再是模型权重，而是一个持续扩展的机器人技能库。

英伟达开源机器人技能库ASPIRE：Jim Fan称其代表全新持续学习范式，训练不再只是梯度下降閰嶅浘1

什么是ASPIRE？

ASPIRE的全称是Agentic Skill Programming through Iterative Robot Exploration。它允许机器人用代码执行任务，在失败后通过分析多模态执行轨迹来修正程序，并将验证过的修复经验沉淀为可复用的技能。这些技能本质上是供大模型使用的上下文，但其中蕴含了经过验证的代码修复模式，使机器人能够在遇到类似问题时直接调用，无需重新试错。

例如，当机器人试图拿起一个收音机但无法靠近时，ASPIRE能够分析出问题并非识别错误，而是规划器给出的目标点落在了障碍物的碰撞缓冲区内。基于此，系统会总结出一条新技能：如果遇到规划失败，尝试从45°、90°、180°等不同角度重新接近目标，直到找到无碰撞路径。此后，无论目标换成微波炉还是其他家具，这条经验都可以直接复用。

从“Code as Policy”到持续学习

ASPIRE建立在近期兴起的“Code as Policy”范式之上。与端到端的视觉-语言-动作模型不同，Code as Policy让大模型编写可执行的机器人控制程序，调用感知、规划和控制原语。然而，之前的Code as Policy存在两个主要问题：一是系统只知道任务失败，却无法定位具体环节；二是系统不会积累经验，每次失败后修复方案都会被丢弃。

Jim Fan指出，ASPIRE解决了这些问题，使得机器人完成第100个任务时不再像完成第1个任务时那样一无所知。整个过程类似于人类机器人工程师的工作流程：回放执行过程、分析失败原因、记录修复经验，下次遇到类似问题即可直接应用。

三阶段流水线

ASPIRE的实现分为三个阶段。首先是机器人执行引擎，它将每次任务的感知、规划、抓取等操作细节记录下来，包括输入、输出、视觉证据和错误日志。其次是技能库，代理在修复程序后不会丢弃经验，而是将其提炼为可复用的知识，例如“桌边物体要多角度接近”或“抽屉把手怎么过滤假检测”。最后是进化搜索，系统生成多条候选控制程序，让它们在执行环境中运行，并根据结果迭代优化。

实验验证

研究团队在三个经典机器人基准上测试了ASPIRE，包括LIBERO-Pro、Robosuite和BEHAVIOR-1K，覆盖泛化操作、接触密集型操作和长时家庭任务。在Robosuite的双臂物体交接任务中，ASPIRE将成功率从20%提升至92%。在泛化能力测试中，研究先在LIBERO-90上积累技能库，然后直接迁移到未见过的LIBERO-Pro Long任务。结果显示，随着技能库的丰富，机器人在新任务上的成功率从几乎为零提升至31%。

团队与招聘

ASPIRE由英伟达GEAR团队主导，成员包括Jim Fan、朱玉可、Guanzhi Wang、石冠亚等。排在前三位的共同贡献者中，Runyu Lu是密歇根大学博士二年级学生，正在GEAR实习；Yuubo Wu来自伊利诺伊大学厄巴纳-香槟分校；Ethan Kou来自加州大学伯克利分校，目前还是一名本科生。值得一提的是，就在ASPIRE发布前一天，英伟达宣布扩大国内机器人团队招聘，在北京、上海、深圳三地开放了多个岗位，覆盖具身智能、仿真、机器人部署和解决方案架构等方向。

文章来源：https://aidadog.com/news/ai/o2lrar98nptf9ieqs4iwq5so

英伟达开源机器人技能库ASPIRE：Jim Fan称其代表全新持续学习范式，训练不再只是梯度下降

导读

什么是ASPIRE？

从“Code as Policy”到持续学习

三阶段流水线

实验验证

团队与招聘

OceanBase 推湖库一体架构：一套技术栈统一离在线，重新定义 AI 数据库

Anthropic 双线出击：Claude Sonnet 5 降价发布，Claude Science 进军科研领域

继续阅读

章节导航