EMBERSim: 用于提升恶意软件分析中相似性搜索的大规模数据库
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该文介绍了一种从二进制文件相似性研究空间入手的方法,解决了恶意软件检测中数据稀缺的问题,并以大型恶意软件分类数据集 EMBER 为基础进行增强。作者发布了 EMBERSim,使用开源工具 AVClass 在 VirusTotal 数据上自动确定恶意软件类别标签,并分享了类别评分技术和叶相似性方法的实现。
🎯
关键要点
- 近年来,恶意软件检测从基于启发式的方法转向机器学习。
- 相似性研究的数据稀缺导致对恶意软件相似性的量化偏重,忽视了干净数据。
- 这种单方量化在检测绕过中尤其危险。
- 提出从二进制文件的相似性研究空间入手,解决数据稀缺的问题。
- 以大型恶意软件分类数据集EMBER为基础进行增强,加入相似性信息和恶意软件类别标签。
- 发布了EMBERSim,EMBER的增强版本,包括相似性提供的标签。
- 使用开源工具AVClass在VirusTotal数据上自动确定恶意软件类别标签,丰富了EMBERSim。
- 描述并分享了类别评分技术和叶相似性方法的实现。
➡️