BriefGPT - AI 论文速递 ·

库级组合代码翻译与验证

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文探讨了无监督机器翻译在自动神经源代码转换器中的应用，展示了其在C++、Java和Python之间的高精度翻译。研究提出使用编译器中间表示(IR)和大型语言模型(LLMs)来提升代码翻译质量，并开发新的评估指标和框架，以解决准确性和资源限制问题。通过多智能体系统TRANSAGENT，进一步提高了翻译效果和效率。

🎯

关键要点

提出使用无监督机器翻译训练全自动神经源代码转换器，展示其在C++、Java和Python之间的高精度翻译。
使用低级别的编译器中间表示(IR)提高代码翻译质量，平均提高正确翻译数11%，某些语言对高达79%。
构建大规模综合基准CodeTransOcean，支持多种新颖的多语种数据集，提出新型评估指标Debugging Success Rate@K。
提出Code Distillation（CoDist）模型，通过捕捉代码的语义和结构等价性，实现针对任何编程语言的并行语料库。
提出统一代码转换框架UniTrans，解决源程序理解不足和转换中的I/O类型指令缺失问题，显著提高翻译效果。
基于大语言模型的多智能体系统TRANSAGENT，通过协同工作自动修复语法和语义错误，显著优于现有技术。

❓

延伸问答

无监督机器翻译如何应用于源代码转换？

无监督机器翻译被用于训练全自动神经源代码转换器，实现C++、Java和Python之间的高精度翻译。

编译器中间表示(IR)在代码翻译中有什么作用？

编译器中间表示(IR)用于提高代码翻译质量，平均提高正确翻译数11%，某些语言对高达79%。

CodeTransOcean基准的主要特点是什么？

CodeTransOcean是一个大规模综合基准，支持多种新颖的多语种数据集，并提出了新型评估指标Debugging Success Rate@K。

什么是Code Distillation（CoDist）模型？

Code Distillation（CoDist）模型通过捕捉代码的语义和结构等价性，实现针对任何编程语言的并行语料库。

UniTrans框架解决了哪些代码转换问题？

UniTrans框架解决了源程序理解不足和转换中的I/O类型指令缺失问题，显著提高了翻译效果。

TRANSAGENT系统如何提高代码翻译的效果？

TRANSAGENT系统通过多智能体协同工作，自动修复语法和语义错误，显著优于现有技术。

🏷️