小红花·文摘

理解链状思维生成在大型语言模型内部计算中的程度对于决定是否信任语言模型的输出至关重要。评估模型大小与忠实度的关系时发现，130亿参数模型比8.1亿到1750亿参数的模型表现出更高的忠实度。然而，仅改变提示中答案选择的顺序就能将该度量缩小73百分点，对评估忠实度的有效性产生疑虑。