对大型多模态模型进行常见冲突的基准测试
原文中文,约300字,阅读约需1分钟。发表于: 。填补大型多模型(LMMs)评估中的不足,通过研究其输出在常见破坏情况下的自一致性,调查文本、图像和语音之间的跨模态交互,创建了一个综合性基准 MMCbench,评估了 100 多个受欢迎的 LMMs(共 150 个模型检查点),此全面评估对于实际部署至关重要,并有助于更好地了解顶尖 LMMs 的可靠性。
本文提出了BenchLMM基准测试,用于评估大型多模态模型对不同样式变化的鲁棒性。研究发现,LMMs在使用其他样式时普遍性能下降,并且在一个样式上表现好并不意味着在其他样式上也表现好。通过提示LMMs预测样式来增强其推理能力,提出了一种通用且无需训练的方法来改进LMMs。希望该基准测试和分析能够为开发更智能和通用的LMMs提供新思路。