**摘要**
部署在现实世界中的机器人应该从他们的经验中学习,并随着时间的推移而改进。这需要一种练习和从反馈中学习的机制。在本文中,我们提出了VERITAS ,一种用于推理时间策略指导和自我改进的通用机器人策略的生成器-验证器框架。我们使用预先训练的通才机器人策略作为“生成器” ,并将其与
👤 作者: Mingtong Zhang, Dhruv Shah
---
🔗 **[Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement](https://arxiv.org/abs/2606.18247v1)**
> Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-17 14:00
news
Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement
加载回复中...