PsyBench: 一个平衡且深入的心理学中文评估基准
原文中文,约400字,阅读约需1分钟。发表于: 。LLMs 在各领域越来越普及,因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题,作者提出了 psybench,这是第一个详尽覆盖研究领域所需知识的全面中文评估套件,通过多项选择题深入评估模型在心理学中的优势和劣势,并发现不同领域的性能存在显著差异,展示了测试集中知识不均衡可能导致结果偏斜的风险,仅 ChatGPT 模型的平均准确率超过...
LLMs在各领域普及,需要改进NLP基准。作者提出了psybench,全面中文评估套件,深入评估模型在心理学中的优势和劣势,发现不同领域性能差异大,测试集知识不均衡可能导致结果偏斜。ChatGPT模型准确率超过70%,仍有改进空间。psybench有助于评估模型优势和劣势,并在心理学应用中提供支持。