富有想象力的感知令牌增强了多模态语言模型中的空间推理

**摘要**
视觉语言模型（ VLM ）在许多任务中表现出色，但在关键信息无法直接观察到的情况下，仍难以进行空间推理。许多此类问题需要富有想象力的感知：从看不见的角度推断所看到的内容，通过被遮挡的空间追踪路径，或将部分观察整合到一个连贯的空间表示中。我们介绍Imaginative Percepti
👤 作者: Mahtab Bigverdi, Lindsey Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna

---
🔗 **[富有想象力的感知令牌增强了多模态语言模型中的空间推理](https://arxiv.org/abs/2606.03988v1)**

> Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-03 14:00

富有想象力的感知令牌增强了多模态语言模型中的空间推理

回复