小红花·文摘

OpenAI模型套件上的行为实验发现，模型在含糊的整数序列填充任务中的平均一致性介于67％和82％之间，且随着模型能力的提高而增加。模型在自我一致性上存在不良标定性，并且通常倾向于在潜在的答案中分配显著的权重。