重新路由，请勿删除：视觉语言模型的可恢复可视化令牌路由

**摘要**
视觉语言模型（ VLM ）将图像投射到数百到数千个视觉令牌中，使得解码器推理在注意力计算和KV缓存中都非常昂贵。现有的视觉令牌减少方法在很大程度上遵循等级和删除范式：它们对视觉令牌进行评分，保持紧凑的子集，并永久丢弃其余部分。我们证明了这种不可逆转的作用是脆弱的，因为v
👤 作者: Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu

---
🔗 **[重新路由，请勿删除：视觉语言模型的可恢复可视化令牌路由](https://arxiv.org/abs/2606.12412v1)**

> Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-11 14:00

重新路由，请勿删除：视觉语言模型的可恢复可视化令牌路由

回复