**摘要**
AdamW是训练大型语言模型( LLM )的事实上的优化器,但其背后的理论仍然主要存在于有限方差机制中。这越来越令人不满意,因为经验证据表明, LLM预训练中的随机梯度噪声通常是重尾的。最近的研究表明, Lion和Muon等基于符号的优化器实现了尖锐的重尾率,
👤 作者: Dingzhi Yu, Hongyi Tao, Yuanyu Wan, Luo Luo, Lijun Zhang

---
🔗 **[打开问题: AdamW在重尾噪声下是否有效?](https://arxiv.org/abs/2606.23676v1)**

> Open Problem: Is AdamW Effective Under Heavy-Tailed Noise?
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-23 23:10