小红花·文摘

本研究提出海龟基准，以克服现有大语言模型评估方法的局限性。通过在线海龟汤谜题平台收集真实用户猜测，动态生成评估数据集，提高评估的可靠性，并揭示当前先进模型，尤其是OpenAI o1系列模型的不足之处。