MIA-Bench是一个新的基准测试,用于评估多模态大型语言模型(MLLMs)在严格遵循复杂指令方面的能力。该基准测试包含了400个图像提示对,每个对都经过精心设计,旨在挑战模型在生成满足特定请求模式的准确响应时遵循分层指令的能力。评估结果显示出性能的显著差异,突出了指令准确性改进的领域。此外,我们创建了额外的训练数据,并探索了有监督的微调方法,以增强模型在严格遵循指令的能力的同时不影响其他任务的性能。希望这个基准测试可以作为衡量MLLM遵循指令的工具,指导未来MLLM训练方法的发展。
完成下面两步后,将自动完成登录并继续当前操作。