清华、复旦和港科大联合发布RM-BENCH基准,旨在评估奖励模型的认知敏锐度,解决“形式大于内容”的问题。该基准关注模型对细微内容差异的敏感性和风格偏差的鲁棒性,涵盖聊天、代码、数学和安全等领域。研究表明,现有奖励模型在这些领域表现不佳,亟需改进。
完成下面两步后,将自动完成登录并继续当前操作。