本研究提出GazeReward框架,利用眼动追踪数据为奖励模型提供隐式反馈,提升大语言模型与人类期望的对齐度。结果表明,该方法显著提高了模型在偏好数据集上的准确性,为AI与人类价值观对齐提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。