本文总结了源代码分析中机器学习的最新研究动态,包括12类软件工程任务、相应的机器学习技术、工具和数据集。文章讨论了每个任务的通用步骤、机器学习技术和可用数据集和工具,并探讨了该领域面临的挑战。
该研究调查了语言模型在代码摘要中的可解释性,结果显示语言模型的关注点与人类程序员的注意力没有显著关联,人类注意力与语言模型生成摘要质量之间也没有发现影响。研究呼吁进一步研究可解释性的语言模型和软件工程任务中的训练机制以及其他模型关注度的适用性。
该文章介绍了一种新的预训练代码模型,利用Transformer模型和注意力屏蔽等方法,能够在缺少符号的情况下学习程序的上下文和相关性,并在多个软件工程任务中取得显著的性能提升。
完成下面两步后,将自动完成登录并继续当前操作。