本研究提出了首个大规模多语言调试基准MdEval,涵盖18种编程语言的3.6K测试样本,显著提升了多语言代码调试效果,并揭示了开源与闭源模型之间的性能差距。
完成下面两步后,将自动完成登录并继续当前操作。