用于机器人操纵的自由形式偏好学习

**摘要**
奖励设计仍然是自主机器人政策改进的核心瓶颈，特别是在长视野操作任务中，稀疏的成功标签提供的信号太少，二进制偏好将许多相互竞争的质量概念折叠成一个模棱两可的信号。我们引入了自由形式偏好学习（ FPL ），这是一种从自由形式的人类偏好中学习机器人策略的方法。
👤 作者: Marcel Torne, Anubha Mahajan, Abhijnya Bhat, Chelsea Finn

---
🔗 **[用于机器人操纵的自由形式偏好学习](https://arxiv.org/abs/2606.32027v1)**

> Freeform Preference Learning for Robotic Manipulation
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-07-01 14:01

用于机器人操纵的自由形式偏好学习

回复