**摘要**
视觉语言模型( VLM )通常将视觉接地和检测视为坐标令牌生成问题,将每个2D框序列化为多个1D令牌,这些令牌在很大程度上是独立学习和解码的。这种逐个令牌的解码与盒几何的耦合结构不匹配,并且由于严格的顺序生成而产生了实用的推理瓶颈。我们介绍LOC
👤 作者: Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, 云泽人, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu
---
🔗 **[LocateAnything :快速、高质量的视觉语言接地与并行盒子解码](https://arxiv.org/abs/2605.27365v1)**
> LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-28 08:00
加载回复中...