**摘要**
视觉语言模型( VLM )越来越多地部署在嵌入式环境中,在那里它们需要产生动作幅度和空间坐标等数值输出。尽管这些数字似乎有意义,但目前尚不清楚这些数字输出是否真的以空间感知为基础。因此,在这项工作中,我们通过SpaceNum重新审视空间数值理解,
👤 作者: Jianshu Zhang, Yijiang Li, Huifeixin Chen, Haoran Lu, Letian Xue, Bingyang Wang, Han Liu
---
🔗 **[SPACENUM :重新审视VLM中的空间数字理解](https://arxiv.org/abs/2605.23898v1)**
> SPACENUM: Revisiting Spatial Numerical Understanding in VLMs
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-26 08:01
加载回复中...