**摘要**
空间推理,即确定物体在何处,它们如何关联以及它们如何在3D中移动的能力,仍然是视觉语言模型( VLM )的基本挑战。工具增强型代理试图通过使用专业感知模块增强VLM来解决这个问题,但其有效性受到调用这些工具的操作界面的限制。在这项工作中,我们研究如何
👤 作者: Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen
---
🔗 **[SpatialClaw :代理空间推理的重新思考操作界面](https://arxiv.org/abs/2606.13673v1)**
> SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-12 14:01
加载回复中...