小红花·文摘

本文探讨了大规模语言模型（LLMs）在代码生成中的应用，指出评估中的“熟悉性专家”问题。通过引入代码混淆，建立了OBFUSEVAL基准，评估四种LLMs，结果显示混淆后测试通过率平均下降62.5%，揭示了评估方法的不足及改进方向。