**摘要**
路由器是Mixture-of-Experts模型的基石组件。作为专家代理,路由器矩阵的行计算其与MoE输入的相似性,以确定激活了哪个专家子集。理想情况下,每个路由器行都被设计为将专家矩阵编码到此代表性向量中,以便其带有令牌的点积可以更好地反映令牌-专家亲和力。Ho
👤 作者: Songhao Wu, Ang Lv, Ruobing Xie, Yankai Lin
---
🔗 **[使用歧管功率迭代重新设计Mixture-of-Experts路由器](https://arxiv.org/abs/2606.12397v1)**
> Redesign Mixture-of-Experts Routers with Manifold Power Iteration
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-11 14:00
加载回复中...