本文介绍了多种基于对比学习的代码嵌入框架和模型,如ContraCode、CodeRetriever和VEXIR2Vec,旨在提升源代码和二进制代码的分析、搜索和摘要能力。这些方法通过预训练和无监督学习,显著提高了代码语义表示的准确性和鲁棒性,推动了二进制逆向工程的发展。
EMBER 数据集为反恶意 Windows 可执行文件的静态检测提供了标记的基准数据,包含 90 万个训练样本和 20 万个测试样本。研究探讨了利用自然语言处理和深度学习技术分析二进制代码的方法,并提出多种模型和数据集以提升检测性能。
完成下面两步后,将自动完成登录并继续当前操作。