阐明文本到图像扩散模型中的最佳奖励-多样性权衡

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

使用人类反馈数据训练奖励函数来微调文本到图像模型,但过度优化奖励模型可能损害性能。引入Text-Image Alignment Assessment (TIA2)基准,评估奖励模型与人类评估的一致性。发现不良对齐的奖励模型导致过度优化。提出TextNorm方法,通过语义对比的文本提示增强对齐。在微调中整合置信度校准的奖励可减少过度优化,相对于基线模型,在人类评估中获得两倍胜利。

原文中文,约400字,阅读约需1分钟。
阅读原文