小红花·文摘

本研究探讨了大型语言模型（LLMs）的自我评估能力及其在不同任务中的表现。结果表明，模型能够预测答案概率，但在新任务上存在校准困难。研究提出了一种自适应一致性技术，显著降低了采样成本并提高了准确性。同时，开发了评估框架和新方法，以提升模型的批判能力和推理效率，尤其在资源有限的情况下。