小红花·文摘

通过多个调查评估发现，大型语言模型（LLMs）在价值观和观点评估中存在问题。政治罗盘测试（PCT）显示，模型在不受强制约束时给出的答案存在实质性差异，并且缺乏改写的稳健性。在更真实的开放性回答环境中，模型再次给出了不同的答案。建议在LLMs的价值观和观点评估中面临开放性挑战。