LLM 模型模拟人类心理行为的有限能力:心理测量分析
原文中文,约400字,阅读约需1分钟。发表于: 。该研究使用心理测量学的方法,对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4 的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
大型语言模型(LLMs)对个性测试的反应存在系统偏差,不能像人类测试结果一样解释。需要更加关注对LLMs的测试有效性。