Multi-Image Enhanced Direct Preference Optimization for Large Vision-Language Models

本研究解决了现有视觉偏好对齐方法在多图像任务中由于训练数据稀缺及标注成本高而面临的挑战。提出的多图像增强直接偏好优化（MIA-DPO）通过利用无关图像构建选择/拒绝对，减少了多图像数据标注的成本，并在多图像基准测试中 outperform 现有方法，平均提升了 3.0% - 4.3% 的性能。该方法在保持对单图像理解能力的同时，显著改善了模型在复杂场景中的表现。

本研究提出了一种多图像增强直接偏好优化（MIA-DPO）方法，旨在解决多图像任务中的数据稀缺和高标注成本问题。该方法通过构建选择/拒绝对，降低了标注成本，并在基准测试中提升了3.0%-4.3%的性能，同时改善了复杂场景的表现。

models 偏好优化增强多图像性能提升标注成本