**摘要**
当前的分层注意力方法,如NSA和InfLLMv2 ,根据粗略的注意力分数选择前k个相关关键值( KV )块,然后对所选令牌应用细粒度的softmax注意力。然而, top-k操作假设任何查询的相关令牌数量是固定的,并且它排除了稀疏和密集阶段之间的梯度流动。在这项工作中,
👤 作者: Yuxiang Huang, Nuno M. T. Gonçalves, Federico Alvetreti, Lei Li, Xu Han, Edoardo M. Ponti, André F. T. Martins, Marcos V. Treviso
---
🔗 **[DashAttention :可微分和自适应稀疏分层注意力](https://arxiv.org/abs/2605.18753v1)**
> DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-20 05:36
加载回复中...