小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了首个大规模多语言调试基准MdEval，涵盖18种编程语言的3.6K测试样本，显著提升了多语言代码调试效果，并揭示了开源与闭源模型之间的性能差距。

MdEval：大规模多语言代码调试

BriefGPT - AI 论文速递 ·