小红花·文摘

本研究提出了一种“反思基准”评估工具，旨在解决大型语言模型在智能表现上缺乏反思能力的问题。该工具包含七个任务，用于测评核心认知功能。研究结果表明，当前语言模型在反思能力方面表现不足，为未来的人工智能研究指明了方向。