通过多个调查评估发现,大型语言模型(LLMs)在价值观和观点评估中存在问题。政治罗盘测试(PCT)显示,模型在不受强制约束时给出的答案存在实质性差异,并且缺乏改写的稳健性。在更真实的开放性回答环境中,模型再次给出了不同的答案。建议在LLMs的价值观和观点评估中面临开放性挑战。
完成下面两步后,将自动完成登录并继续当前操作。