小红花·文摘

本研究提出了“价值印记”框架，审计和分类RLHF数据集中人类价值观。案例研究表明，信息效用型价值观占主导地位，而利他和民主价值观缺失，这对语言模型的开发产生了重大影响。