在重复游戏中与适应性强的对手进行后悔最小化

**摘要**
在本文中，我们研究了可以根据游戏历史做出反应的\ emph {适应性}对手的重复游戏中的后悔最小化。众所周知，在线学习中\ emph {external regret}的标准指标未能捕捉到这种适应性。为了解释玩家的反事实推理，我们引入了{\ tt Repeated Policy Regret (RP-Regret)} ，这是一个博弈论指标，用于衡量
👤 作者: Mingyang Liu, Asuman Ozdaglar, Tiancheng Yu, Kaiqing Zhang

---
🔗 **[在重复游戏中与适应性强的对手进行后悔最小化](https://arxiv.org/abs/2606.06486v1)**

> Regret Minimization with Adaptive Opponents in Repeated Games
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-05 14:01

在重复游戏中与适应性强的对手进行后悔最小化

回复