**摘要**
推理模型进展迅速,但占主导地位的可验证奖励强化学习( RLVR )方案仍然令人惊讶地狭窄:对许多回复进行抽样,并用一个位来奖励每个回复,以指示最终答案是否正确。然而,许多设置提供了丰富的反馈,包括执行跟踪、工具输出、专家校正和模型自我评估。我们学习如何对我们
👤 作者: Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad
---
🔗 **[使用Distributional DAgger从丰富的反馈中强化学习](https://arxiv.org/abs/2606.05152v1)**
> Reinforcement Learning from Rich Feedback with Distributional DAgger
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-04 14:00
加载回复中...