小红花·文摘 - 小红花技术领袖俱乐部

本研究提出自一致内部奖励（SCIR）框架，旨在解决大型语言模型（LLM）内部奖励模型的不一致性问题，从而提升与人类偏好的对齐性能和奖励建模能力。

Improving the Consistency of Internal Reward Models Enhances the Performance of Self-Reinforcement Language Models

BriefGPT - AI 论文速递 ·