本研究探讨了大型语言模型(LLM)评估方法的滞后问题,提出了LLM心理测量学这一新领域,旨在通过心理测量工具提升LLM的评估,促进人本中心AI系统的社会利益实现。
本研究提出了一种心理测量框架,定义了五种基本空间能力,并对13种视觉语言模型进行了基准测试,结果显示其表现明显低于人类,为空间智能评估提供了工具和方法论基础。
本文研究了大型语言模型(LLMs)的人格特质,探讨了如何通过自然语言处理和心理测量测试来评估和塑造这些特质。研究发现,LLMs展现出与人类相似的个性特征,并提出了基于专家混合的个性化模型P-tailor,以提高人格特征建模的效率。
本文研究了大型语言模型(LLMs)的人格特征,发现其在不同情境下表现出显著差异。通过心理测量测试,评估了LLMs的个性可靠性与有效性,指出现有自我评估测试存在偏差,无法准确测量机器的人格。研究强调需谨慎对待LLMs的个性定义与评估方法。
该研究探讨了大型语言模型(LLMs)的个性特征,称为AInality。研究发现,LLMs展现出与人类相似的个性类型,并能在不同个性之间动态切换。研究强调了LLMs在心理学研究中的潜力,同时指出了技术和伦理挑战,呼吁负责任地使用这些模型。
本研究评估了大型语言模型在角色扮演中的决策能力,并探讨其与MBTI人格类型的关系。实验结果显示,不同角色在决策能力上存在稳定差异,表明大型语言模型能够有效模拟人类行为并反映社会特征。此外,研究还讨论了心理测量在游戏角色开发中的应用,强调了负责任地使用大型语言模型的重要性。
该研究利用话题建模对MOOC学生进行心理测量,分析在线论坛的主题参与度。通过自然语言处理模型识别低自尊的文本线索,强调LoST指标的重要性。同时,研究探讨了大型语言模型输出中的人格特质,并提出基于数据驱动的职业技能热度模型,分析招聘数据以评估职位技能发展。
完成下面两步后,将自动完成登录并继续当前操作。