本研究提出了MVReward框架,旨在解决多视图扩散模型与人类偏好的对齐问题。通过收集标准化图像提示并创建包含1.6万条专家对比的数据集,开发了奖励模型MVReward,显著提高了评估的公正性,并引入了多视图偏好学习策略,以增强对齐效果。
完成下面两步后,将自动完成登录并继续当前操作。