本研究探讨了大型语言模型(LLMs)的自我评估能力及其在不同任务中的表现。结果表明,模型能够预测答案概率,但在新任务上存在校准困难。研究提出了一种自适应一致性技术,显著降低了采样成本并提高了准确性。同时,开发了评估框架和新方法,以提升模型的批判能力和推理效率,尤其在资源有限的情况下。
完成下面两步后,将自动完成登录并继续当前操作。