本文介绍了多种基于对比学习的代码嵌入框架和模型,如ContraCode、CodeRetriever和VEXIR2Vec,旨在提升源代码和二进制代码的分析、搜索和摘要能力。这些方法通过预训练和无监督学习,显著提高了代码语义表示的准确性和鲁棒性,推动了二进制逆向工程的发展。
预训练的无监督数据生成的文本和代码向量表示在多个任务中表现优异,在线性探测分类中提升了4%和1.8%。在大规模语义搜索中,MSMARCO、Natural Questions和TriviaQA基准分别提高了23.4%、14.7%和10.6%。代码嵌入模型也实现了20.8%的相对提升。
完成下面两步后,将自动完成登录并继续当前操作。