**摘要**
线性注意力将softmax注意力的无限缓存替换为固定大小的循环状态,将序列混合减少到线性时间并解码到恒定内存。困难的部分不仅仅是忘记什么,而是如何在不扰乱现有关联的情况下编辑此压缩内存。Delta-rule模型在写入新值之前减去当前读数,以及Kimi Delta Attention (KDA)
👤 作者: Ali Hatamizadeh, Yejin Choi, Jan Kautz

---
🔗 **[门控DeltaNet-2 :线性注意中的去耦擦除和写入](https://arxiv.org/abs/2605.22791v1)**

> Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-23 08:00