本研究提出GazeReward框架,通过眼动追踪数据为大语言模型提供隐式反馈,解决了模型与人类期望对齐的问题。研究表明,该方法显著提高了模型在偏好数据集上的准确性,为优化AI与人类价值观对齐提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。