小红花·文摘

本文介绍了基于大型语言模型的视觉中心任务框架VisionLLM，旨在统一视觉与语言任务。通过将图像视为外语并利用语言指令进行管理，提升了多模态模型在特定领域的表现。此外，研究提出了VistaLLM和RoboLLM框架，解决了多任务间的干扰问题，并在视觉感知任务中取得了优异成绩。