小红花·文摘

本研究提出了MVReward框架，旨在解决多视图扩散模型与人类偏好的对齐问题。通过收集标准化图像提示并创建包含1.6万条专家对比的数据集，开发了奖励模型MVReward，显著提高了评估的公正性，并引入了多视图偏好学习策略，以增强对齐效果。