无限多模态:利用大规模高质量指令数据提升多模态性能
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了开放源代码指令数据规模和质量有限的问题,提出了Infinity-MM,一个包含4000万个样本的大规模多模态指令数据集,并通过严格的质量滤波和去重进行了增强。通过该数据集训练的Aquila-VL-2B模型在相似规模的模型中实现了最新的性能,证明扩展指令数据和生成合成数据可以显著提升开放源模型的表现。
本研究提出了Infinity-MM数据集,包含4000万个样本,解决了开放源代码指令数据的规模和质量问题。训练的Aquila-VL-2B模型在同类模型中表现优异,验证了扩展指令数据和生成合成数据的有效性。