本研究探讨了视觉语言模型(VLMs)在强化学习中的应用,提出了多种策略以减轻模型中的幻觉问题,并通过偏好调优和校准步骤提升了模型的准确性和公平性。此外,研究展示了如何利用VLMs生成密集奖励函数,从而显著提高强化学习代理的训练效果。
本文提出了一种基于蒸馏的多模态对齐模型,通过偏好调优和自动生成数据的方法解决视觉大语言模型中的幻觉问题。研究探讨了大型语言模型的偏差,提出了OPEN框架以优化用户偏好获取,并介绍了因果偏好优化(CPO)和相对偏好优化(RPO)等新方法,显著提升了模型性能和适应性。
完成下面两步后,将自动完成登录并继续当前操作。