BriefGPT - AI 论文速递 ·

当前语言模型是否支持R编程语言的代码智能？

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文评估了多种大型编程语言模型，提出了新模型PolyCoder，发现其在C语言上的表现优于Codex。研究指出多语言模型在性能上的局限，并提出优化微调时间的策略。通过基准测试和数据增强，提升了模型在代码生成和摘要任务中的表现，强调了理解代码结构的重要性。

🎯

🔎

研究表明，多语言预训练模型在性能和时间效率上存在局限性，尤其是在微调过程中。针对特定编程语言的选择策略可以有效减少微调时间，同时提升代码摘要和搜索任务的表现。这一发现对开发者在选择模型时具有重要指导意义。

在对R语言的代码实体脆弱性调查中，标识符被发现是最易受攻击的部分。这一结果强调了在开发R语言相关工具时，理解标记类型的重要性，尤其是在代码摘要和方法名预测模型的构建中。

研究提出了一种简单的数据增强框架，通过生成伪数据来提升模型性能。这种方法在代码生成和摘要任务中取得了显著改进，表明在模型训练中合理利用预训练知识可以有效提升代码智能的表现。

❓

PolyCoder在C语言上的表现优于所有其他模型，包括Codex。

多语言PLMs在性能-时间比上表现较低，微调期间的BLEU、METEOR或MRR分数较低。

通过引入简单的数据增强框架和优化微调策略，可以显著提高模型在代码生成和摘要任务中的表现。

在R语言中，标识符是最容易受到攻击的代码实体，其次是特定于R语言的语法标记。

基于Transformer的语言模型在自动代码补全方面显示出巨大的潜力，但评估使用真实数据较少。

PEFT方法在R语言的代码LLMs上表现出良好的适应性和知识转移能力。

🏷️