**摘要**
基于感知的人形机器人操纵需要将以自我为中心的观察和任务指令与全身运动联系起来。学习此映射需要同步的以自我为中心的图像、语言命令和机器人兼容的运动轨迹,但没有现有的数据源能够大规模提供这个完整的元组。我们通过生成视觉语言运动学( VLK )来解决这一瓶颈
👤 作者: Yen-Jen Wang, Jiaman Li, Sirui Chen, Takara E. Truong, Pei Xu, Pieter Abbeel, Rocky Duan, Koushil Sreenath, Angjoo Kanazawa, Carmelo Sferrazza, Guanya Shi, Karen Liu
---
🔗 **[VLK: Learning Humanoid Loco-Manipulation from Synthetic Interactions in Reconstructed Scenes](https://arxiv.org/abs/2606.30645v1)**
> VLK: Learning Humanoid Loco-Manipulation from Synthetic Interactions in Reconstructed Scenes
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-30 14:00
news
VLK: Learning Humanoid Loco-Manipulation from Synthetic Interactions in Reconstructed Scenes
加载回复中...