BriefGPT - AI 论文速递 ·

组合：用于机器学习的自动二值数据集构建

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

EMBER 数据集为反恶意 Windows 可执行文件的静态检测提供了标记的基准数据，包含 90 万个训练样本和 20 万个测试样本。研究探讨了利用自然语言处理和深度学习技术分析二进制代码的方法，并提出多种模型和数据集以提升检测性能。

🎯

关键要点

EMBER 数据集为反恶意 Windows 可执行文件的静态检测提供了标记的基准数据，包含 90 万个训练样本和 20 万个测试样本。
数据集包括 300K 个恶意样本、300K 个良性样本和 300K 个未标记样本。
研究探讨了利用自然语言处理和深度学习技术分析二进制代码的方法。
提出了多种模型和数据集以提升检测性能，包括 MalConv 性能比较结果。
研究还涉及使用大型预先训练的源代码模型进行反编译二进制文件的函数自动摘要。

❓

延伸问答

EMBER 数据集包含多少个训练样本和测试样本？

EMBER 数据集包含 90 万个训练样本和 20 万个测试样本。

EMBER 数据集中的恶意样本和良性样本各有多少？

数据集中有 300K 个恶意样本和 300K 个良性样本。

研究中使用了哪些技术来分析二进制代码？

研究探讨了利用自然语言处理和深度学习技术分析二进制代码的方法。

MalConv 模型在研究中有什么作用？

MalConv 模型用于提供基线性能比较结果，以提升检测性能。

研究中提到的 CAPYBARA 数据集有什么特点？

CAPYBARA 数据集包含多种编译器优化的数据，用于反编译二进制文件的函数自动摘要。

如何提高二进制代码在迁移学习中的性能？

通过对齐二进制代码和自然语言解释来生成更好的嵌入表示，提高迁移学习性能。

🏷️

标签

EMBER 数据集二进制代码反恶意软件数据集机器学习深度学习静态检测

➡️

继续阅读

Price-hiked iPads are a little cheaper right now
A number of Apple products got more expensive last month, so we’re happy to f...
iOS code could reportedly let Apple cut off apps when users miss iPhone payments
Code found in an iOS 27 beta would allow Apple to put a financed iPhone in &#...
Release Notes for Safari Technology Preview 248
Safari Technology Preview Release 248 is now available for download for macOS...
Kimi K3: White House alleges Fable 5 siphoning
Top White House technology official Michael Kratsios on Wednesday accused Chi...
Agents keep changing their answers. Harness just built delivery pipelines that don’t care.
Software delivery lifecycle company (SDLC) Harness wants to put agents throug...
美图拿出1亿元，面向全行业寻找AI影像Builder
美图产品挑战赛（Meitu Hatch Catch）火热报名中