**摘要**
在本文中,我们研究了可以根据游戏历史做出反应的\ emph {适应性}对手的重复游戏中的后悔最小化。众所周知,在线学习中\ emph {external regret}的标准指标未能捕捉到这种适应性。为了解释玩家的反事实推理,我们引入了{\ tt Repeated Policy Regret (RP-Regret)} ,这是一个博弈论指标,用于衡量
👤 作者: Mingyang Liu, Asuman Ozdaglar, Tiancheng Yu, Kaiqing Zhang
---
🔗 **[在重复游戏中与适应性强的对手进行后悔最小化](https://arxiv.org/abs/2606.06486v1)**
> Regret Minimization with Adaptive Opponents in Repeated Games
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-05 14:01
加载回复中...