小红花·文摘

OpenAI ·

该研究针对视觉语言模型中现有奖励模型的不足，特别是仅提供二元反馈的问题。提出的令牌级探测奖励模型（TLDR）通过细粒度文本标注提升模型性能，改善自我纠正生成和幻觉评估，并显著提高人类标注效率。

BriefGPT - AI 论文速递 ·