**摘要**
长语境推理仍然是大型语言模型的核心挑战,这些模型通常无法在大量分散注意力的内容中定位和整合关键信息。具有可验证奖励的强化学习( RLVR )已显示出对这项任务的希望,但现有方法受到低混淆性干扰因素和稀疏的、仅限结果的奖励信号的限制,这些信号无法监督
👤 作者: Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li
---
🔗 **[LongTraceRL :通过评分细则表奖励从搜索代理轨迹中学习长上下文推理](https://arxiv.org/abs/2605.31584v1)**
> LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-01 14:01
加载回复中...