**摘要**
多模态大型语言模型( MLLM )仍然难以进行细粒度的视觉理解,其中答案通常依赖于完整图像中微小但决定性的证据。我们观察到一个区域到全球的感知差距:相同的MLLM在以证据为中心的作物上比在相应的完整图像上更准确地回答细粒度问题,这表明许多失败
👤 作者: Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu
---
🔗 **[Vision-OPD :学习通过按政策自我蒸馏查看多式联运LLM的精细细节](https://arxiv.org/abs/2605.18740v1)**
> Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-20 05:37
加载回复中...