小红花·文摘

本研究提出了首个大规模多语言调试基准MdEval，涵盖18种编程语言的3.6K测试样本。引入调试指令语料库MDEVAL-INSTRUCT，并开发多语言调试器xDebugCoder，显著提升调试效果，揭示开源与闭源模型的性能差距，显示改进空间。