**摘要**
视觉语言模型( VLM )将图像投射到数百到数千个视觉令牌中,使得解码器推理在注意力计算和KV缓存中都非常昂贵。现有的视觉令牌减少方法在很大程度上遵循等级和删除范式:它们对视觉令牌进行评分,保持紧凑的子集,并永久丢弃其余部分。我们证明了这种不可逆转的作用是脆弱的,因为v
👤 作者: Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu
---
🔗 **[重新路由,请勿删除:视觉语言模型的可恢复可视化令牌路由](https://arxiv.org/abs/2606.12412v1)**
> Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-11 14:00
加载回复中...