本研究探讨了大型语言模型在数学问题解决中的推理稳健性,发现其在无关上下文下表现显著下降,揭示了模型的脆弱性,强调了提升对噪声和误导信息鲁棒性的重要性。
本研究提出了标准化评估工具包StaICC,以解决上下文学习分类任务评估中的标准不一致问题,并设计了子基准StaICC-Diag,以增强推理的稳健性,为未来研究提供统一的平台。
完成下面两步后,将自动完成登录并继续当前操作。