本文探讨了大规模语言模型(LLMs)在代码生成中的应用,指出评估中的“熟悉性专家”问题。通过引入代码混淆,建立了OBFUSEVAL基准,评估四种LLMs,结果显示混淆后测试通过率平均下降62.5%,揭示了评估方法的不足及改进方向。
完成下面两步后,将自动完成登录并继续当前操作。