**摘要**
最近的多模态大型语言模型表现出很强的推理能力,但它们作为自动化评估者的可靠性仍然受到一个关键弱点的限制:当视觉证据与文本线索冲突时,传销评委倾向于奖励貌似合理的叙述,而不是感知上正确的答案。我们识别并系统地分析这种现象,我们称之为感知判断偏差。
👤 作者: Seojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin, Hyunjung Shim
---
🔗 **[通过感知扰动和奖励建模减轻多模态LLM-as-a-Judge中的感知判断偏差](https://arxiv.org/abs/2606.02578v1)**
> Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-06-02 14:00
加载回复中...