PsyEval:一种用于精神健康领域的综合大型语言模型评估基准
原文中文,约500字,阅读约需2分钟。发表于: 。目前缺乏对大型语言模型(LLMs)在心理健康领域能力评估的全面基准。因此,我们填补该空白,并引入了首个适用于心理健康领域特点的全面基准,包括六个子任务、三个维度,系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示,并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间,还揭示了未来模型优化的潜在方向。
研究评估了大型语言模型(LLMs)在生物医学任务中的性能,发现LLMs在较小训练集的生物医学数据集中表现出色,甚至超过了当前最先进的生物医学模型。然而,不同LLMs的性能可能因任务而异。尽管与精细调整的生物医学模型相比,LLMs的性能仍有待提高,但它们在缺乏大规模注释数据的生物医学任务中具有潜在的价值。