知乎每日精选 ·

【VALSE 2023】走向计算机视觉的通用人工智能：GPT和大语言模型带来的启发

💡 原文中文，约11200字，阅读约需27分钟。

📝

内容提要

本文探讨了计算机视觉领域的发展和挑战，提出了CV必须走向大一统，使用一套系统解决各种视觉问题。文章分析了CV中完成大一统的困难，提出了从环境中学习的新研究范式，并介绍了未来CV训练流程的设想。作者认为，CV领域必须抛弃现有框架，设计全新的具身范式，让CV算法在与环境的交互中增强能力，不断进化。此外，文章还探讨了CV的根本困难和CV所处的发展阶段。作者认为，大规模语言模型已经具备了成为AI与人类沟通的“中枢系统”的条件，CV领域需要将这种范式复刻到自己的领域中。

🎯

关键要点

计算机视觉领域必须走向大一统，使用一套系统解决各种视觉问题。
CV领域面临实现大一统的困难，需要从环境中学习的新研究范式。
CV算法需在与环境的交互中增强能力，不断进化。
大规模语言模型已具备成为AI与人类沟通的中枢系统的条件，CV需复刻这一范式。
AGI是AI发展的最高目标，CV实现AGI的难度大于NLP。
当前CV的常用方法论仍较初步，主要依赖独立模型解决不同问题。
CV领域的研究需关注任务形式、逻辑和视觉与语言的交互统一。
代理任务的精度提升可能无法逼近AGI，需构建真实的交互环境。
未来CV的学习流程应包括环境构建、生成式预训练和指令微调。
CV研究需吸收NLP的能力，融合语言的跨模态研究将成为主流。
重要研究方向包括环境构建、智能体行为模拟和生成式预训练方法。

🏷️

【VALSE 2023】走向计算机视觉的通用人工智能：GPT和大语言模型带来的启发

内容提要

关键要点

标签

继续阅读