该研究解决了中文奖励模型研究中数据集和基准不足的问题,提出了CheemsBench和CheemsPreference工具,强调人工监督在捕捉人类偏好中的重要性,并指出AI生成的数据无法充分反映人类偏好。
完成下面两步后,将自动完成登录并继续当前操作。