极道 ·

计算机视觉已然失败：苦涩教训后发现循环才是出路

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

计算机视觉正面临转变，将融入“感知-行动循环”。传统的3D重建等中间步骤将被淘汰，端到端的方法将成为主流。目前的挑战是缺乏足够的“感知-动作”配对数据，未来需通过新技术解决这一问题，以推动智能体的发展。

🎯

🔎

计算机视觉正经历重要转型，传统的3D重建等中间步骤逐渐被淘汰。过去的任务划分虽然在技术上合理，但随着技术进步，这种分工已不再适用。未来的计算机视觉将更注重直接从感知到行动的端到端方法，提升智能体的实际应用能力。

当前计算机视觉面临的最大挑战是缺乏足够的“感知-动作”配对数据。有效的数据收集需要智能体进行多样化的行为，而在真实环境中部署大量机器人成本高昂。未来的研究需探索如何在有限数据下实现感知与动作的有效结合。

世界模型被视为解决感知-动作循环问题的潜在工具，能够通过模拟生成丰富的虚拟经验。然而，训练有效的世界模型仍需大量配对数据，这在当前条件下难以实现。因此，尽管世界模型提供了新的思路，但并非解决方案的终极答案。

❓

计算机视觉将融入“感知-行动循环”，传统的3D重建等中间步骤将被淘汰，端到端的方法将成为主流。

传统任务如物体识别和3D重建是人为划分的小问题，实际应用中需要根据视觉信息做出正确动作。

当前最大的挑战是缺乏足够的“感知-动作”配对数据，智能体需要通过内在驱动力收集数据。

“感知-行动循环”是指计算机直接将看到的东西转化为动作，而不需要中间步骤。

未来需要通过新技术和方法，让智能体靠内在驱动力自己去收集数据。

世界模型可以作为一种模拟器，帮助训练智能体，但本身并不能解决核心问题。

🏷️