该研究提出了一个用于评估社交智能的基准,通过逆向推理和逆向规划这两个评估任务,实验证明人类在多个方面超越了最新的GPT模型,并对LLMs的计算方式产生了质疑。
完成下面两步后,将自动完成登录并继续当前操作。