本文探讨了计算机视觉领域的发展和挑战,提出了CV必须走向大一统,使用一套系统解决各种视觉问题。文章分析了CV中完成大一统的困难,提出了从环境中学习的新研究范式,并介绍了未来CV训练流程的设想。作者认为,CV领域必须抛弃现有框架,设计全新的具身范式,让CV算法在与环境的交互中增强能力,不断进化。此外,文章还探讨了CV的根本困难和CV所处的发展阶段。作者认为,大规模语言模型已经具备了成为AI与人类沟通的“中枢系统”的条件,CV领域需要将这种范式复刻到自己的领域中。
完成下面两步后,将自动完成登录并继续当前操作。