**摘要**
视觉-语言-行动( VLA )模型可以从演示中学习操作技能,但它们的能力受训练数据中技能的限制。我们展示了InSight ,这是一个框架,通过在原始动作级别上渲染VLA来解锁自主技能获取(例如, “将抓手移动到碗中”、“向上提起”、“倒瓶子” )。InSight由两个主要阶段组成:
👤 作者: Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager

---
🔗 **[洞察力:通过可导向VLA进行自我引导的技能获取](https://arxiv.org/abs/2606.24884v1)**

> InSight: Self-Guided Skill Acquisition via Steerable VLAs
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-24 14:00