小红花·文摘

本研究比较了GPT-2和LLaMA-2在心智理论任务中的下一个令牌预测表现。结果表明，LLaMA-2在低温度设置下的预测准确性优于GPT-2，尤其在复杂推理任务中，两者表现差异显著。