本研究提出了一种“反思基准”评估工具,旨在解决大型语言模型在智能表现上缺乏反思能力的问题。该工具包含七个任务,用于测评核心认知功能。研究结果表明,当前语言模型在反思能力方面表现不足,为未来的人工智能研究指明了方向。
完成下面两步后,将自动完成登录并继续当前操作。