The Impact of Noise on the Performance of Large Language Models in Abstract and Reasoning Tasks and Considerations of Model Temperature

本研究探讨了大型语言模型在抽象与推理任务（ARC）中的表现受噪声影响的现象，揭示了目前模型在处理输入扰动时的脆弱性。通过不同噪声级别和温度设置下的系统评估，发现噪声的引入显著降低了模型性能，强调了对开发更强大和适应性强的AI系统的需求，以应对现实场景中的不确定性。

本研究分析了大型语言模型在抽象与推理任务中的表现，发现噪声的引入普遍降低了模型性能，揭示了其对输入扰动的脆弱性。

model models performance 噪声大型语言模型抽象推理脆弱性