BriefGPT - AI 论文速递 ·

CPsyExam：用考试评价心理学的中文基准

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文介绍了针对大型语言模型（LLMs）的评估基准，包括心理学、医学和公安领域的应用。研究提出了psybench、CMExam和CPSDbench等工具，以评估模型在各领域的表现和局限性，强调了改进空间和知识不均衡的风险。这些基准有助于全面理解LLMs的能力，并推动未来模型的优化。

🎯

❓

psybench 是第一个全面的中文评估套件，专注于评估心理学领域的模型表现，帮助识别知识不均衡的风险。

CMExam 数据集通过深入分析 LLMs 在中国医学中的表现，提供了针对医学领域的评估标准，解决了评估挑战。

CPSDbench 是针对中国公安领域的评估基准，旨在评估 LLMs 在公安任务中的性能。

MedBench 是一个综合性的基准测试，评估医学语言模型的知识和推理能力，包含来自医学各领域的问题。

目前缺乏全面的评估基准，导致对 LLMs 在心理健康领域能力的评估不够系统和深入。

EXAMS-V 是一个多学科多模态的考试基准，包含多种语言和复杂推理的问题，旨在全面评估视觉语言模型。

🏷️