该研究提出了PsychoBench框架,用于评估大型语言模型(LLMs)在心理学领域的人格特征、动机和情绪能力。研究发现,当前模型在心理健康评估中有显著改进空间,并强调了标准化方法和伦理指南的必要性。此外,研究引入了SciBench和JEEBench等基准,系统检验LLMs在科学和数学问题解决中的能力,结果显示表现不佳,需进一步优化。
完成下面两步后,将自动完成登录并继续当前操作。