本文比较了五个数据集和两个模型类型上程序辅助语言模型和基于文本的思维链提示技术的校准情况。结果显示,程序辅助语言模型在75%的情况下提供更好的校准性能。通过使用温度缩放来降低生成的多样性,程序辅助语言模型在某些温度下不仅更准确,而且更具校准性。总体而言,程序辅助的推理者比基于文本的对应者更好地了解自己的知识。
完成下面两步后,将自动完成登录并继续当前操作。