小红花·文摘

Any-Modality Augmented Language Model (AnyMAL)是一种统一模型，可以对多样化的输入模态信号进行推理，并生成文本回复。该模型继承了最先进的LLMs的强大的基于文本的推理能力，并通过预训练的对齐模块将模态特定信号转换为联合文本空间。同时，使用人工收集的多模态指令集对模型进行了微调，以覆盖复杂的主题和任务。在全面的经验分析中，该模型在各种多模态任务上展示了最先进的性能。