小红花·文摘

本文介绍了针对大型语言模型（LLMs）的评估基准，涵盖心理健康、科学研究和教育等领域。研究表明，LLMs在复杂任务和动态问题上的表现仍需改进。通过设计综合评估基准，旨在推动LLMs的优化与应用。