细调文本 - 图像模型的自信度感知奖励优化

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

使用人类反馈数据训练奖励函数来微调文本到图像模型,但过度优化奖励模型可能损害性能。引入Text-Image Alignment Assessment (TIA2)基准,评估了几个奖励模型,发现与人类评估不一致。提出TextNorm方法,通过语义对比的文本提示增强对齐,有效减少过度优化。在文本到图像对齐的人类评估中获得两倍胜利。

🎯

关键要点

  • 使用人类反馈数据训练的奖励函数可以微调文本到图像模型,提升模型行为与人类意图的对齐。

  • 过度优化奖励模型可能会损害微调模型的性能,这种现象被称为奖励过度优化。

  • 引入了Text-Image Alignment Assessment (TIA2)基准,评估了多个奖励模型,发现与人类评估不一致。

  • 不良对齐的奖励模型作为微调目标时,过度优化现象尤为严重。

  • 提出了TextNorm方法,通过语义对比的文本提示增强对齐,减少过度优化。

  • 在文本到图像对齐的人类评估中,整合具有置信度校准的奖励模型获得了两倍的胜利。

➡️

继续阅读