LocateAnything ：快速、高质量的视觉语言接地与并行盒子解码

**摘要**
视觉语言模型（ VLM ）通常将视觉接地和检测视为坐标令牌生成问题，将每个2D框序列化为多个1D令牌，这些令牌在很大程度上是独立学习和解码的。这种逐个令牌的解码与盒几何的耦合结构不匹配，并且由于严格的顺序生成而产生了实用的推理瓶颈。我们介绍LOC
👤 作者: Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, 云泽人, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu

---
🔗 **[LocateAnything ：快速、高质量的视觉语言接地与并行盒子解码](https://arxiv.org/abs/2605.27365v1)**

> LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-28 08:00

LocateAnything ：快速、高质量的视觉语言接地与并行盒子解码

回复