**摘要**
现有的流量匹配( FM )文本到图像模型在多任务对齐下存在两个关键瓶颈:标量值奖励引起的奖励稀疏性,以及共同优化异构目标引起的梯度干扰,这些共同产生了竞争指标和普遍奖励黑客的“跷跷板效应”。灵感来自On-Policy Distillati的成功
👤 作者: Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen, Zehui Chen, Shaosheng Cao, Feng Zhao
---
🔗 **[Flow-OPD :流量匹配模型的随机蒸馏](https://arxiv.org/abs/2605.08063v1)**
> Flow-OPD: On-Policy Distillation for Flow Matching Models
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-12 08:00
加载回复中...