**摘要**
视频在时间上是冗余的:相邻帧通常共享大多数对象、背景和布局。然而,现有的视频多模态大型语言模型(视频MLLM )通常将每个采样帧编码为独立的RGB图像,导致视觉令牌重复早期帧中已经存在的内容。这表明了一个更直接的视频界面:仅在场景发生变化时发送完整的参考帧
👤 作者: Haowen Hou, Zhen Huang, Zheming Liang, Qingyi Si, Chenglin Li, Shuai Dong, Kele Shao, 李瑞林, Dianyi Wang, Nan Duan, Jiaqi Wang

---
🔗 **[AdaCodec :视频MLLM的预测性视觉代码](https://arxiv.org/abs/2606.02569v1)**

> AdaCodec: A Predictive Visual Code for Video MLLMs
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-02 14:00