小红花·文摘

自托管的深渊

DEV Community ·

本研究针对人类反馈强化学习中的过度优化问题，提出了P3O和PRPO算法。通过引入悲观目标，实验证明其在文档摘要和实用助手任务中表现优异，展现出对过度优化的韧性。

Mitigating Preference Manipulation Issues in Policy Optimization through Pessimism

BriefGPT - AI 论文速递 ·

本文讨论了现代生活中过度优化的各个方面，如eBay上的超级转售商、预订餐厅、约会应用程序、新闻业、旅行和体育等领域。过度优化降低了系统的信息水平，损害了用户的体验和利益。互联网时代的信息过载使得过度优化现象更加普遍，需要采取措施来降低社会成本。

【外评】过度优化的现代诅咒

程序师 ·

使用人类反馈数据训练奖励函数来微调文本到图像模型，但过度优化奖励模型可能损害性能。引入Text-Image Alignment Assessment (TIA2)基准，评估了几个奖励模型，发现与人类评估不一致。提出TextNorm方法，通过语义对比的文本提示增强对齐，有效减少过度优化。在文本到图像对齐的人类评估中获得两倍胜利。

细调文本 - 图像模型的自信度感知奖励优化

BriefGPT - AI 论文速递 ·