细调文本 - 图像模型的自信度感知奖励优化
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
使用人类反馈数据训练奖励函数来微调文本到图像模型,但过度优化奖励模型可能损害性能。引入Text-Image Alignment Assessment (TIA2)基准,评估了几个奖励模型,发现与人类评估不一致。提出TextNorm方法,通过语义对比的文本提示增强对齐,有效减少过度优化。在文本到图像对齐的人类评估中获得两倍胜利。
🎯
关键要点
-
使用人类反馈数据训练的奖励函数可以微调文本到图像模型,提升模型行为与人类意图的对齐。
-
过度优化奖励模型可能会损害微调模型的性能,这种现象被称为奖励过度优化。
-
引入了Text-Image Alignment Assessment (TIA2)基准,评估了多个奖励模型,发现与人类评估不一致。
-
不良对齐的奖励模型作为微调目标时,过度优化现象尤为严重。
-
提出了TextNorm方法,通过语义对比的文本提示增强对齐,减少过度优化。
-
在文本到图像对齐的人类评估中,整合具有置信度校准的奖励模型获得了两倍的胜利。
🏷️
标签
➡️