DashAttention ：可微分和自适应稀疏分层注意力

**摘要**
当前的分层注意力方法，如NSA和InfLLMv2 ，根据粗略的注意力分数选择前k个相关关键值（ KV ）块，然后对所选令牌应用细粒度的softmax注意力。然而， top-k操作假设任何查询的相关令牌数量是固定的，并且它排除了稀疏和密集阶段之间的梯度流动。在这项工作中，
👤 作者: Yuxiang Huang, Nuno M. T. Gonçalves, Federico Alvetreti, Lei Li, Xu Han, Edoardo M. Ponti, André F. T. Martins, Marcos V. Treviso

---
🔗 **[DashAttention ：可微分和自适应稀疏分层注意力](https://arxiv.org/abs/2605.18753v1)**

> DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-20 05:36

DashAttention ：可微分和自适应稀疏分层注意力

回复