**摘要**
我们认为,将奖励分解为加权、可验证的标准,并使用LLM评委对其进行评分,可以提供部分信用优化信号:不是二元结果或单个整体评分,而是根据多个特定任务的标准对每个回复进行评分。我们将\ emph {rubric-grounded reinforcement learning (RL)}形式化:一种针对结构优化策略的框架
👤 作者: Manish Bhattarai, Ismael Boureima, Nishath Rajiv Ranasinghe, Scott Pakin, Dan O'Malley

---
🔗 **[以评分细则表为基础的RL :可推广推理的结构化法官奖励](https://arxiv.org/abs/2605.08061v1)**

> Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-12 08:00