ModaVerse: 用 LLMs 高效转换模态

📝

内容提要

引入了 ModaVerse,一种多模态大型语言模型(MLLM),能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐,避免了潜在特征对齐的复杂性,简化了现有 MLLM 的多个训练阶段,从而显著降低了数据和计算成本。在多个基准实验中,我们的方法取得与最先进技术相当的性能,同时在数据使用和训练时间上实现了显著的效率提升。

➡️

继续阅读