细粒度验证器:将偏好建模作为视觉语言对齐中的下一个令牌预测
发表于: 。本研究解决了视觉语言大型模型(VLLMs)在模态对齐中面临的挑战,尤其是因粗略反馈和外部数据集引起的问题。我们提出了一种新的自我对齐方法FiSAO,通过利用视觉编码器的令牌级反馈,显著提升了视觉语言对齐效果,超越了传统的偏好调优方法,标志着首次在此类模型中应用令牌级奖励。
本研究解决了视觉语言大型模型(VLLMs)在模态对齐中面临的挑战,尤其是因粗略反馈和外部数据集引起的问题。我们提出了一种新的自我对齐方法FiSAO,通过利用视觉编码器的令牌级反馈,显著提升了视觉语言对齐效果,超越了传统的偏好调优方法,标志着首次在此类模型中应用令牌级奖励。