HERM:基准测试及提升面向人类理解的多模态大型语言模型
原文中文,约200字,阅读约需1分钟。发表于: 。本研究解决了现有多模态大型语言模型(MLLMs)在理解复杂人类中心场景时的局限性。通过引入HERM-Bench基准和包含多层人类中心注释的HERM-100K数据集,显著提升了MLLMs的训练效果。研究表明,基于HERM-100K训练的HERM-7B模型在各个人类中心维度上超越了现有的MLLMs,强调了专门数据集和基准的重要性。
本研究提出了MMEvol框架,通过感知、认知推理和交互进化提升多模态大型语言模型的数据质量,生成复杂多样的图像-文本数据集。在13个视觉-语言任务中,准确率平均提高3.1个百分点,并在九个任务上达到最先进水平。