打开问题： AdamW在重尾噪声下是否有效？

**摘要**
AdamW是训练大型语言模型（ LLM ）的事实上的优化器，但其背后的理论仍然主要存在于有限方差机制中。这越来越令人不满意，因为经验证据表明， LLM预训练中的随机梯度噪声通常是重尾的。最近的研究表明， Lion和Muon等基于符号的优化器实现了尖锐的重尾率，
👤 作者: Dingzhi Yu, Hongyi Tao, Yuanyu Wan, Luo Luo, Lijun Zhang

---
🔗 **[打开问题： AdamW在重尾噪声下是否有效？](https://arxiv.org/abs/2606.23676v1)**

> Open Problem: Is AdamW Effective Under Heavy-Tailed Noise?
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-23 23:10

打开问题： AdamW在重尾噪声下是否有效？

回复