**摘要**
基于变压器的大型语言模型越来越多地用于长视野任务;然而,它们的注意力机制随上下文长度变化不大。为了解决这个问题,我们研究了一种类似睡眠的整合机制,其中模型在清除其键值缓存之前定期将最近的上下文转换为持久的快速权重。在睡眠期间,模型执行$ N $次离线循环通过
👤 作者: Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

---
🔗 **[语言模型需要睡眠](https://arxiv.org/abs/2605.26099v1)**

> Language Models Need Sleep
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-27 08:00