通过先进的数据增强技术提升加密互联网流量分类

互联网流量分类是一个关键的研究领域，由于互联网协议和加密技术的快速发展，数据的可用性受到限制。本文提出了两种数据增强技术来合成基于真实样本的数据，即平均值增强和 MTU 增强，旨在改善分类器性能和应对有限和同质化数据集的限制。实验证明了这些方法在提高模型性能和解决现代互联网流量分类挑战方面的潜力。同时，研究结果显示我们的增强技术显著提高了对加密流量的分类准确性，从而对用户的体验质量和服务质量产生积极影响。

本文介绍了一种名为ET-BERT的新型流量表示模型，通过在大规模未标记数据上进行预训练并在少量特定任务的有标签数据上进行微调，取得了在加密流量分类任务中显著的提高，尤其是在ISCX-Tor任务中达到了99.2％的F1分数。作者解释了预训练模型的强大原因，并分析了加密流量分类的边界能力，为未来的研究和应用提供了新的思路。

ET-BERT ISCX-Tor 互联网加密流量分类流量流量表示模型预训练模型