MIA-Bench:迈向更好的多模态大型语言模型指令遵循评估
原文英文,约200词,阅读约需1分钟。发表于: 。We introduce MIA-Bench, a new benchmark designed to evaluate multimodal large language models (MLLMs) on their ability to strictly adhere to complex instructions. Our benchmark comprises a diverse...
MIA-Bench是一个新的基准测试,用于评估多模态大型语言模型(MLLMs)在严格遵循复杂指令方面的能力。该基准测试包含了400个图像提示对,每个对都经过精心设计,旨在挑战模型在生成满足特定请求模式的准确响应时遵循分层指令的能力。评估结果显示出性能的显著差异,突出了指令准确性改进的领域。此外,我们创建了额外的训练数据,并探索了有监督的微调方法,以增强模型在严格遵循指令的能力的同时不影响其他任务的性能。希望这个基准测试可以作为衡量MLLM遵循指令的工具,指导未来MLLM训练方法的发展。