阐明文本到图像扩散模型中的最佳奖励-多样性权衡
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
使用人类反馈数据训练奖励函数来微调文本到图像模型,但过度优化奖励模型可能损害性能。引入Text-Image Alignment Assessment (TIA2)基准,评估奖励模型与人类评估的一致性。发现不良对齐的奖励模型导致过度优化。提出TextNorm方法,通过语义对比的文本提示增强对齐。在微调中整合置信度校准的奖励可减少过度优化,相对于基线模型,在人类评估中获得两倍胜利。
🎯
关键要点
- 使用人类反馈数据训练的奖励函数可以微调文本到图像模型,提升模型与人类意图的对齐。
- 过度优化奖励模型可能会损害微调模型的性能,称为奖励过度优化现象。
- 引入Text-Image Alignment Assessment (TIA2)基准,评估奖励模型与人类评估的一致性。
- 发现不良对齐的奖励模型导致过度优化现象更为严重。
- 提出TextNorm方法,通过语义对比的文本提示增强对齐。
- 在微调中整合置信度校准的奖励可以有效减少过度优化,获得两倍于基线模型的人类评估胜利。
➡️