LongTraceRL ：通过评分细则表奖励从搜索代理轨迹中学习长上下文推理

**摘要**
长语境推理仍然是大型语言模型的核心挑战，这些模型通常无法在大量分散注意力的内容中定位和整合关键信息。具有可验证奖励的强化学习（ RLVR ）已显示出对这项任务的希望，但现有方法受到低混淆性干扰因素和稀疏的、仅限结果的奖励信号的限制，这些信号无法监督
👤 作者: Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li

---
🔗 **[LongTraceRL ：通过评分细则表奖励从搜索代理轨迹中学习长上下文推理](https://arxiv.org/abs/2605.31584v1)**

> LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-01 14:01

LongTraceRL ：通过评分细则表奖励从搜索代理轨迹中学习长上下文推理

回复