**摘要**
视觉问答( VQA )基准在很大程度上强调了基于感知的任务,这些任务可以仅从视觉内容中解决。相比之下,许多真实世界的场景需要在图像中无法直接观察到的外部知识才能正确回答。我们介绍了WikiVQABench ,这是一个通过系统地结合维基百科图像构建的人工策划的基于知识的VQA基准
👤 作者: Basel Shbita, Pengyuan Li, Anna Lisa Gentile

---
🔗 **[WikiVQABench :来自维基百科和维基数据的以知识为基础的视觉问题答案基准](https://arxiv.org/abs/2605.21479v1)**

> WikiVQABench: A Knowledge-Grounded Visual Question Answering Benchmark from Wikipedia and Wikidata
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-22 08:01