**摘要**
大多数视觉-语言-行动( VLA )模型通过附加一个行动模块并共同优化整个策略,建立在视觉-语言模型( VLM )主干之上。这种设计从VLM继承了强大的视觉和语言先验,但留下了几乎从头开始学习物理运动的动作模块。因此,该策略缺乏明确的先验运动,迫使早期优化同时
👤 作者: Dong Jing, Tianqi Zhang, Jiaqi Liu, Jinman Zhao, Zelong Sun, Li Erran Li, Zhiwu Lu, Mingyu Ding
---
🔗 **[Learning Action Priors for Cross-embodiment Robot Manipulation](https://arxiv.org/abs/2606.26095v1)**
> Learning Action Priors for Cross-embodiment Robot Manipulation
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-25 14:00
news
Learning Action Priors for Cross-embodiment Robot Manipulation
加载回复中...