本文介绍了针对大型语言模型(LLMs)的评估基准,涵盖心理健康、科学研究和教育等领域。研究表明,LLMs在复杂任务和动态问题上的表现仍需改进。通过设计综合评估基准,旨在推动LLMs的优化与应用。
完成下面两步后,将自动完成登录并继续当前操作。