本研究提出了一种能量奖励模型(EBRM),有效解决了现有模型在捕捉复杂人类偏好和泛化能力不足的问题。通过数据过滤和对比训练,EBRM显著提升了模型的稳健性和表现。
完成下面两步后,将自动完成登录并继续当前操作。