本研究探讨了多图像视觉到文本生成的挑战,强调了处理图像间复杂关系的重要性,并分析了相关任务的建模和评估方法中的共同问题,提出了未来研究方向。
本研究提出Giraffe模型,解决了视觉语言模型在处理多图像和高分辨率视频时的上下文长度不足问题,扩展至128K的上下文长度,性能显著提升。
本研究提出了一种多图像增强直接偏好优化(MIA-DPO)方法,旨在解决多图像任务中的数据稀缺和高标注成本问题。该方法通过构建选择/拒绝对,降低了标注成本,并在基准测试中提升了3.0%-4.3%的性能,同时改善了复杂场景的表现。
完成下面两步后,将自动完成登录并继续当前操作。