洞察力：通过可导向VLA进行自我引导的技能获取

**摘要**
视觉-语言-行动（ VLA ）模型可以从演示中学习操作技能，但它们的能力受训练数据中技能的限制。我们展示了InSight ，这是一个框架，通过在原始动作级别上渲染VLA来解锁自主技能获取（例如， “将抓手移动到碗中”、“向上提起”、“倒瓶子” ）。InSight由两个主要阶段组成：
👤 作者: Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager

---
🔗 **[洞察力：通过可导向VLA进行自我引导的技能获取](https://arxiv.org/abs/2606.24884v1)**

> InSight: Self-Guided Skill Acquisition via Steerable VLAs
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-24 14:00

洞察力：通过可导向VLA进行自我引导的技能获取

回复