小红花·文摘 - 小红花技术领袖俱乐部

该研究提出了一个用于评估社交智能的基准，通过逆向推理和逆向规划这两个评估任务，实验证明人类在多个方面超越了最新的GPT模型，并对LLMs的计算方式产生了质疑。

评估和模拟社会智能：人类与人工智能能力的比较研究

BriefGPT - AI 论文速递 ·