4M-21:面向多任务和多模态的任意到任意视觉模型
原文英文,约300词,阅读约需2分钟。发表于: 。*Equal Contributors Current multimodal and multitask foundation models like 4M or UnifiedIO show promising results, but in practice their out-of-the-box abilities to accept diverse inputs and...
当前多模态和多任务模型如4M和UnifiedIO在处理多样输入和任务上有局限。本文通过在多模态和大规模数据集上训练,扩展了4M的能力。我们使用语义、几何模态和伪标签等进行训练,引入新模态提升交互和生成能力,并扩展到三十亿参数模型,保持性能。