Flow-OPD ：流量匹配模型的随机蒸馏

**摘要**
现有的流量匹配（ FM ）文本到图像模型在多任务对齐下存在两个关键瓶颈：标量值奖励引起的奖励稀疏性，以及共同优化异构目标引起的梯度干扰，这些共同产生了竞争指标和普遍奖励黑客的“跷跷板效应”。灵感来自On-Policy Distillati的成功
👤 作者: Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen, Zehui Chen, Shaosheng Cao, Feng Zhao

---
🔗 **[Flow-OPD ：流量匹配模型的随机蒸馏](https://arxiv.org/abs/2605.08063v1)**

> Flow-OPD: On-Policy Distillation for Flow Matching Models
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-12 08:00

Flow-OPD ：流量匹配模型的随机蒸馏

回复