量子位 ·

纯靠“脑补”图像，大模型推理准确率狂飙80%丨剑桥谷歌新研究

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

剑桥、伦敦大学学院与谷歌的研究团队提出了一种新方法VPRL，通过图像进行推理，准确率高达80%。该方法利用强化学习优化视觉规划，显著优于传统文本推理，推动多模态推理向更直观的方向发展。

🎯

🔎

VPRL方法通过直接利用图像进行推理，避免了传统文本中介的低效，准确率高达80%。这一突破表明，视觉推理在复杂任务中表现更为出色，尤其是在需要快速反应的场景中，能够显著提升模型的决策效率。

VPRL框架中强化学习的引入，使得模型能够在随机轨迹中探索并学习有效的规划策略。这种方法不仅提高了模型的规划性能，还降低了无效失败率，展现出更强的稳定性，尤其在复杂环境下的表现尤为突出。

研究团队的长期目标是推动多模态推理的发展，VPRL的成功为未来的视觉推理研究奠定了基础。随着技术的进步，预计将会有更多基于视觉的推理方法出现，进一步改变AI在复杂任务中的应用方式。

❓

VPRL方法通过纯图像进行推理，利用强化学习优化视觉规划，准确率高达80%，显著优于传统文本推理。

VPRL的训练框架分为策略初始化和强化学习优化两个阶段。

在复杂任务MiniBehavior中，VPRL的准确率（EM）高达75.8%，表现尤为突出。

VPRL在所有任务上均优于文本推理，准确率提升至少40%，并且在鲁棒性和稳定性上表现更佳。

VPRL将无效失败率降低了24%，帮助模型保持在有效的动作空间内。

研究团队将继续推动多模态推理的发展，探索更直观的图像化推理方式。

🏷️