Unseen Horizons: Revealing the True Capabilities of Large Language Models in Code Generation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文探讨了大规模语言模型(LLMs)在代码生成中的应用,指出评估中的“熟悉性专家”问题。通过引入代码混淆,建立了OBFUSEVAL基准,评估四种LLMs,结果显示混淆后测试通过率平均下降62.5%,揭示了评估方法的不足及改进方向。
🎯
关键要点
- 本文探讨了大规模语言模型(LLMs)在代码生成中的应用。
- 识别了评估过程中的“熟悉性专家”问题及其根源。
- 引入代码混淆的概念,建立了基于混淆的基准OBFUSEVAL。
- 对四种LLMs进行了评估,结果显示混淆后测试通过率平均下降62.5%。
- 突显了当前评估方法的不足及未来改进方向。
➡️