**摘要**
当前的视觉语言模型难以处理长达数小时的视频,因为处理全长视觉序列会导致令人望而却步的令牌爆炸和注意力稀释。为了克服这一点,我们引入了MemDreamer来解耦感知和推理,将长视频理解转变为代理探索过程。作为即插即用框架,它逐渐流式传输视频以构建H
👤 作者: Cong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua Shen
---
🔗 **[MemDreamer :通过分层图形记忆和代理检索机制进行长视频理解的解耦感知和推理](https://arxiv.org/abs/2606.07512v1)**
> MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-08 14:00
加载回复中...