CODECRASH:在结构和语义扰动下对大型语言模型推理的压力测试
📝
内容提要
本研究解决了大型语言模型(LLMs)在代码理解和推理中的脆弱性问题。通过提出CodeCrash基准,研究评估了LLMs在代码结构和文本干扰下的鲁棒性,揭示了其在面对结构性噪声时的脆弱性和对自然语言线索的依赖。研究结果强调了LLMs在代码执行和理解方面的关键鲁棒性问题,并为未来的评估和基准测试提供了可行方向。
🏷️
标签
➡️