评估大型语言模型在心理测量工具上的可靠性
原文中文,约400字,阅读约需1分钟。发表于: 。大型语言模型(LLMs)在社会科学研究中的自然语言理解任务的通用性使其备受青睐。本研究探讨了当前的提示格式是否能使 LLMs 以一致且稳健的方式提供回答,结论发现即使对选项顺序进行简单扰动也足以显著降低模型的问答能力,且大多数 LLMs 在否定一致性方面表现低下,提示目前的普遍做法无法准确捕捉模型的认知,我们讨论了改进这些问题的可能替代方案。
大型语言模型(LLMs)对个性测试的反应存在系统偏差,不能像人类测试结果一样解释。设计用于“引导”LLMs模拟特定个性类型的提示变化也不遵循人类样本中的五个独立个性因素。因此,在对LLMs的“个性”进行结论之前,应更加关注测试的有效性。