AlphaGRPO ：通过分解可验证奖励解锁UMM中的自反射多峰生成

**摘要**
在本文中，我们提出了AlphaGRPO ，这是一种新颖的框架，将组相对策略优化（ GRPO ）应用于AR扩散统一多模态模型（ UMM ），以增强多模态生成能力，而无需额外的冷启动阶段。我们的方法释放了模型执行高级推理任务的内在潜力：推理文本到图像生成，其中模型主动执行
👤 作者: Runhui Huang, Jie Wu, Rui YANG, Zhe Liu, Hengshuang Zhao

---
🔗 **[AlphaGRPO ：通过分解可验证奖励解锁UMM中的自反射多峰生成](https://arxiv.org/abs/2605.12495v1)**

> AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-14 08:00

AlphaGRPO ：通过分解可验证奖励解锁UMM中的自反射多峰生成

回复