本研究提出了一种新的“分解奖励模型”(DRMs),旨在解决传统奖励模型难以捕捉复杂人类偏好的问题。DRMs通过二元比较提取偏好,并利用主成分分析进行向量表示,能够有效适应新用户,为个性化语言模型提供支持。
本文探讨了视觉语言模型(VLMs)的多模态对齐与偏好提取,提出了基于人类反馈的算法,显著提升了模型在复杂任务中的表现。研究通过构建视觉语言反馈数据集和直接偏好优化方法,改善了模型的感知与认知能力,并解决了幻觉问题。此外,推出了WildVision-Arena平台,以收集人类偏好评估VLMs,推动了该领域的研究进展。
完成下面两步后,将自动完成登录并继续当前操作。