Dynabench是一个用于评估人工智能表现的平台,引入了动态对抗性数据集和对抗性和整体基准测试哲学。评估LLM仍有许多工作要做,尤其是在关键设置方面。幻觉、归因和陈旧性等问题将在不久的将来得到解决。
完成下面两步后,将自动完成登录并继续当前操作。