小红花·文摘

本研究提出了一种能量奖励模型（EBRM），有效解决了现有模型在捕捉复杂人类偏好和泛化能力不足的问题。通过数据过滤和对比训练，EBRM显著提升了模型的稳健性和表现。