**摘要**
视觉推理通常与中间视觉状态交织在一起,已成为该领域的一个有希望的方向。一种简单的方法是在推理过程中通过统一模型直接生成图像,但这在计算上是昂贵的,在架构上也不平凡。最近的替代方案包括通过代码或工具调用进行代理推理,以及具有可学习HIDD的潜在推理
👤 作者: Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng
---
🔗 **[ATLAS :代理视觉推理还是潜在视觉推理?一个词对双方来说都足够了](https://arxiv.org/abs/2605.15198v1)**
> ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-05-16 08:00
加载回复中...