**摘要**
在训练大型语言模型( LLM )时,优化器在预训练和微调阶段都起着重要作用。在本文中,我们提出了一个观察结果,即与其他优化器相比,使用与预训练相同的优化器进行全面微调可以实现更好的学习遗忘权衡,即在新任务上实现相同或更好的性能的同时,遗忘更少,并且可能
👤 作者: Yuxing Liu, Jianyu Wang, Tong Zhang

---
🔗 **[优化器-模型一致性:使用相同的优化器进行完全微调,因为预训练忘记了更少](https://arxiv.org/abs/2605.06654v1)**

> Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as Pretraining Forgets Less
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-09 08:12