Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

**摘要**
部署在现实世界中的机器人应该从他们的经验中学习，并随着时间的推移而改进。这需要一种练习和从反馈中学习的机制。在本文中，我们提出了VERITAS ，一种用于推理时间策略指导和自我改进的通用机器人策略的生成器-验证器框架。我们使用预先训练的通才机器人策略作为“生成器” ，并将其与
👤 作者: Mingtong Zhang, Dhruv Shah

---
🔗 **[Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement](https://arxiv.org/abs/2606.18247v1)**

> Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-17 14:00

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

回复