小红花·文摘

InfoQ ·

本文介绍了BigO(Bench)，一种新型编码基准，用于评估生成语言模型在理解和生成具有特定时间和空间复杂度的代码能力。研究发现，尽管模型在代码生成方面表现良好，但在理解复杂度方面存在不足，可能无法泛化到未奖励的任务。

BriefGPT - AI 论文速递 ·