本研究提出了“价值印记”框架,审计和分类RLHF数据集中人类价值观。案例研究表明,信息效用型价值观占主导地位,而利他和民主价值观缺失,这对语言模型的开发产生了重大影响。
完成下面两步后,将自动完成登录并继续当前操作。