Learning Action Priors for Cross-embodiment Robot Manipulation

**摘要**
大多数视觉-语言-行动（ VLA ）模型通过附加一个行动模块并共同优化整个策略，建立在视觉-语言模型（ VLM ）主干之上。这种设计从VLM继承了强大的视觉和语言先验，但留下了几乎从头开始学习物理运动的动作模块。因此，该策略缺乏明确的先验运动，迫使早期优化同时
👤 作者: Dong Jing, Tianqi Zhang, Jiaqi Liu, Jinman Zhao, Zelong Sun, Li Erran Li, Zhiwu Lu, Mingyu Ding

---
🔗 **[Learning Action Priors for Cross-embodiment Robot Manipulation](https://arxiv.org/abs/2606.26095v1)**

> Learning Action Priors for Cross-embodiment Robot Manipulation
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-25 14:00

Learning Action Priors for Cross-embodiment Robot Manipulation

回复