该论文介绍了BabelCode,一个基于执行的语言无关基准评估框架,用于解决编程语言评估标准的限制。同时,提出了TP3,一个新的代码翻译数据集,用于提高大规模语言模型在低资源语言任务中的性能。经过平衡语料库上的训练,该模型在所有任务和语言上的$pass@k$比基线模型高12.34%,在低资源语言上的$pass@k$提高了66.48%,而高资源语言的$pass@k$降低了12.94%。
完成下面两步后,将自动完成登录并继续当前操作。