小红花·文摘

本文探讨了大型语言模型（LLMs）在回答问题时的性能提升方法，包括不确定性感知能力和重述与回答（RaR）策略。研究表明，通过优化提示和对抗性问答基准，LLMs能够更有效地处理复杂问题并提高准确性。此外，模型在面对质疑时的判断一致性也受到评估，提示语气对结果有显著影响。这些研究为教育领域的评估任务提供了重要支持。