Any-Modality Augmented Language Model (AnyMAL)是一种统一模型,可以对多样化的输入模态信号进行推理,并生成文本回复。该模型继承了最先进的LLMs的强大的基于文本的推理能力,并通过预训练的对齐模块将模态特定信号转换为联合文本空间。同时,使用人工收集的多模态指令集对模型进行了微调,以覆盖复杂的主题和任务。在全面的经验分析中,该模型在各种多模态任务上展示了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。