小红花·文摘

本研究探讨了大型语言模型在数学问题解决中的推理稳健性，发现其在无关上下文下表现显著下降，揭示了模型的脆弱性，强调了提升对噪声和误导信息鲁棒性的重要性。

BriefGPT - AI 论文速递 ·

本研究提出了标准化评估工具包StaICC，以解决上下文学习分类任务评估中的标准不一致问题，并设计了子基准StaICC-Diag，以增强推理的稳健性，为未来研究提供统一的平台。

BriefGPT - AI 论文速递 ·