本研究提出海龟基准,以克服现有大语言模型评估方法的局限性。通过在线海龟汤谜题平台收集真实用户猜测,动态生成评估数据集,提高评估的可靠性,并揭示当前先进模型,尤其是OpenAI o1系列模型的不足之处。
完成下面两步后,将自动完成登录并继续当前操作。