SPACENUM ：重新审视VLM中的空间数字理解

**摘要**
视觉语言模型（ VLM ）越来越多地部署在嵌入式环境中，在那里它们需要产生动作幅度和空间坐标等数值输出。尽管这些数字似乎有意义，但目前尚不清楚这些数字输出是否真的以空间感知为基础。因此，在这项工作中，我们通过SpaceNum重新审视空间数值理解，
👤 作者: Jianshu Zhang, Yijiang Li, Huifeixin Chen, Haoran Lu, Letian Xue, Bingyang Wang, Han Liu

---
🔗 **[SPACENUM ：重新审视VLM中的空间数字理解](https://arxiv.org/abs/2605.23898v1)**

> SPACENUM: Revisiting Spatial Numerical Understanding in VLMs
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-26 08:01

SPACENUM ：重新审视VLM中的空间数字理解

回复