Unseen Horizons: Revealing the True Capabilities of Large Language Models in Code Generation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文探讨了大规模语言模型(LLMs)在代码生成中的应用,指出评估中的“熟悉性专家”问题。通过引入代码混淆,建立了OBFUSEVAL基准,评估四种LLMs,结果显示混淆后测试通过率平均下降62.5%,揭示了评估方法的不足及改进方向。

🎯

关键要点

  • 本文探讨了大规模语言模型(LLMs)在代码生成中的应用。
  • 识别了评估过程中的“熟悉性专家”问题及其根源。
  • 引入代码混淆的概念,建立了基于混淆的基准OBFUSEVAL。
  • 对四种LLMs进行了评估,结果显示混淆后测试通过率平均下降62.5%。
  • 突显了当前评估方法的不足及未来改进方向。
➡️

继续阅读