FreeBuf网络安全行业门户 ·

南京大学 | MIETT：面向加密流量分类的多实例Transformer模型

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

本文提出了一种多实例加密流量转换器（MIETT），通过双层注意力机制有效捕捉token级和数据包级特征。引入的预训练任务增强了模型对流量结构和包顺序的理解，实验结果表明MIETT在多个数据集上的分类性能优于现有方法。

🎯

🔎

随着加密技术的普及，传统的基于端口或统计特征的流量分类方法逐渐失效。MIETT模型通过深度学习技术，能够自动提取流量中的特征，克服了对大量标注数据的依赖，适应了加密流量的复杂性。

MIETT引入的双层注意力机制（TLA）有效捕捉了数据包内外的依赖关系，提升了模型对流量结构的理解。这种设计不仅保留了局部特征，还增强了全局信息的捕捉能力，适合处理复杂的加密流量特征。

MIETT模型通过引入掩码流预测、数据包相对位置预测和流对比学习等预训练任务，增强了对流量特征的学习能力。这些创新任务帮助模型更好地理解数据包的顺序和流的结构，提高了分类性能。

❓

MIETT模型的主要创新点是引入了双层注意力机制（TLA），有效捕捉流量中token级和数据包级的关系，并结合了新型的预训练任务。

MIETT模型通过结合数据包注意力和流注意力机制，增强对流量结构和包顺序的理解，从而有效捕捉加密流量的特征。

MIETT模型的训练过程包括预训练和微调两个阶段，预训练通过特定任务学习流量特征，微调则优化模型用于最终分类。

实验结果表明，MIETT在多个数据集上均显著提升了准确率和F1分数，尤其在CrossPlatform (Android)上，准确率提升8.27%，F1分数提升14.66%。

MIETT模型的架构包含tokenization、packet representation和flow representation三个关键步骤。

MIETT模型引入了掩码流预测（MFP）、数据包相对位置预测（PRPP）和流对比学习（FCL）三个预训练任务。

🏷️