小红花·文摘

该研究提出了PsychoBench框架，用于评估大型语言模型（LLMs）在心理学领域的人格特征、动机和情绪能力。研究发现，当前模型在心理健康评估中有显著改进空间，并强调了标准化方法和伦理指南的必要性。此外，研究引入了SciBench和JEEBench等基准，系统检验LLMs在科学和数学问题解决中的能力，结果显示表现不佳，需进一步优化。