EMBERSim: 用于提升恶意软件分析中相似性搜索的大规模数据库

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该文介绍了一种从二进制文件相似性研究空间入手的方法,解决了恶意软件检测中数据稀缺的问题,并以大型恶意软件分类数据集 EMBER 为基础进行增强。作者发布了 EMBERSim,使用开源工具 AVClass 在 VirusTotal 数据上自动确定恶意软件类别标签,并分享了类别评分技术和叶相似性方法的实现。

🎯

关键要点

  • 近年来,恶意软件检测从基于启发式的方法转向机器学习。
  • 相似性研究的数据稀缺导致对恶意软件相似性的量化偏重,忽视了干净数据。
  • 这种单方量化在检测绕过中尤其危险。
  • 提出从二进制文件的相似性研究空间入手,解决数据稀缺的问题。
  • 以大型恶意软件分类数据集EMBER为基础进行增强,加入相似性信息和恶意软件类别标签。
  • 发布了EMBERSim,EMBER的增强版本,包括相似性提供的标签。
  • 使用开源工具AVClass在VirusTotal数据上自动确定恶意软件类别标签,丰富了EMBERSim。
  • 描述并分享了类别评分技术和叶相似性方法的实现。
➡️

继续阅读