**摘要**
奖励设计仍然是自主机器人政策改进的核心瓶颈,特别是在长视野操作任务中,稀疏的成功标签提供的信号太少,二进制偏好将许多相互竞争的质量概念折叠成一个模棱两可的信号。我们引入了自由形式偏好学习( FPL ) ,这是一种从自由形式的人类偏好中学习机器人策略的方法。
👤 作者: Marcel Torne, Anubha Mahajan, Abhijnya Bhat, Chelsea Finn
---
🔗 **[用于机器人操纵的自由形式偏好学习](https://arxiv.org/abs/2606.32027v1)**
> Freeform Preference Learning for Robotic Manipulation
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-07-01 14:01
加载回复中...