**摘要**
变换器使用相同的转发计算流来预测下一个令牌并存储用于未来令牌预测的有用状态。我们制定了\ emph {state-prediction separation hypothesis} :解开这两个角色可以产生更好的语言建模性能。我们设计了一个变压器变体,它使用两个计算流来分离两个函数,并进行预训练实验
👤 作者: Giovanni Monea, Nathan Godey, Kianté Brantley, Yoav Artzi
---
🔗 **[The State-Prediction Separation Hypothesis](https://arxiv.org/abs/2607.01218v1)**
> The State-Prediction Separation Hypothesis
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-07-02 14:00
加载回复中...