小红花·文摘

该论文介绍了BabelCode，一个基于执行的语言无关基准评估框架，用于解决编程语言评估标准的限制。同时，提出了TP3，一个新的代码翻译数据集，用于提高大规模语言模型在低资源语言任务中的性能。经过平衡语料库上的训练，该模型在所有任务和语言上的$pass@k$比基线模型高12.34％，在低资源语言上的$pass@k$提高了66.48％，而高资源语言的$pass@k$降低了12.94％。