大型语言模型(LLMs)的能力不断增长,但也引发了对其潜在滥用的担忧。研究发现LLMs在衡量其能力的任务中能与人类持平,并且合并不同LLMs的预测可以显著提高性能。本文发布的数据和代码为持续评估和监测LLMs的潜在影响和能力做出了关键贡献。
完成下面两步后,将自动完成登录并继续当前操作。