**摘要**
在本文中,我们提出了AlphaGRPO ,这是一种新颖的框架,将组相对策略优化( GRPO )应用于AR扩散统一多模态模型( UMM ) ,以增强多模态生成能力,而无需额外的冷启动阶段。我们的方法释放了模型执行高级推理任务的内在潜力:推理文本到图像生成,其中模型主动执行
👤 作者: Runhui Huang, Jie Wu, Rui YANG, Zhe Liu, Hengshuang Zhao
---
🔗 **[AlphaGRPO :通过分解可验证奖励解锁UMM中的自反射多峰生成](https://arxiv.org/abs/2605.12495v1)**
> AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-14 08:00
加载回复中...