**摘要**
大型语言模型( LLM )的预训练数据混合构成了它们的“数字DNA” ,塑造了模型的行为、能力和失败模式。然而,这种组合很少被披露,使得对数据组合或来源进行事后审计变得困难。在这项工作中,我们将$\ textbf {Data Mixture Surgery (DMS)} $:给定仅从目标LLM生成的文本,估计域级别
👤 作者: Yaxin Luo, Jiacheng Cui, Xiaohan Zhao, Xinyi Shang, Jiacheng Liu, Xinyue Bi, Zhaoyi Li, Zhiqiang Shen

---
🔗 **[LLMSurgeon :大型语言模型的数据混合诊断](https://arxiv.org/abs/2605.30348v1)**

> LLMSurgeon: Diagnosing Data Mixture of Large Language Models
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-31 08:00