使用Distributional DAgger从丰富的反馈中强化学习

**摘要**
推理模型进展迅速，但占主导地位的可验证奖励强化学习（ RLVR ）方案仍然令人惊讶地狭窄：对许多回复进行抽样，并用一个位来奖励每个回复，以指示最终答案是否正确。然而，许多设置提供了丰富的反馈，包括执行跟踪、工具输出、专家校正和模型自我评估。我们学习如何对我们
👤 作者: Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad

---
🔗 **[使用Distributional DAgger从丰富的反馈中强化学习](https://arxiv.org/abs/2606.05152v1)**

> Reinforcement Learning from Rich Feedback with Distributional DAgger
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-04 14:00