小红花·文摘

该研究论文介绍了一种基于转换器架构的大型语言模型，探讨了该转换器是否能够用于处理二维图像，并提出了一种名为 VisionLLaMA 的类似 LLaMA 的视觉转换器，用于解决各种视觉任务，并在图像生成中展现出显著的改进。该研究代码将在指定的 URL 上发布。