FreeBuf网络安全行业门户 ·

Transformer与CNN在恶意URL路径识别中的实践探索

💡 原文中文，约15100字，阅读约需36分钟。

📝

内容提要

本文探讨了Transformer和CNN模型在恶意URL识别中的应用。由于识别恶意流量效率低下，神经网络模型成为解决方案。通过字符级嵌入将URL转化为向量序列，CNN和Transformer分别利用卷积和自注意力机制提取特征，实现正常与恶意流量的分类。

🎯

🔎

在恶意URL识别中，选择合适的模型至关重要。CNN和Transformer各有优劣，CNN擅长捕捉局部特征，而Transformer则能更好地理解序列中元素间的关系。根据具体的应用场景，选择合适的模型可以显著提高识别准确率。

数据预处理在模型训练中扮演着关键角色。通过字符级嵌入和规范化处理，模型能够更有效地学习恶意流量的特征。缺乏充分的样本变体可能导致模型无法识别某些攻击模式，因此增强样本和规范化输入是提升模型性能的有效策略。

在模型训练后，验证其性能是不可或缺的步骤。通过使用独立的测试集评估模型的准确性，可以发现潜在的不足之处。结合规则检测和大模型辅助判别，可以进一步提高恶意URL识别的准确性，确保模型在实际应用中的可靠性。

❓

CNN利用卷积机制提取特征，识别恶意流量模式；而Transformer通过自注意力机制关注序列中其他token的信息，增强特征学习。

通过字符级嵌入将URL中的字符映射为数值，然后进行Tokenization和Padding，形成固定长度的向量序列。

数据集由正常流量和攻击流量组成，正常流量保存到white_log.txt，攻击流量保存到black_log.txt，最后合并为验证流量文件b_w_f.txt。

训练过程中使用了数据增强和规则检测来提高模型的准确性。

Transformer通过位置编码将输入序列的顺序信息加入到每个token的表示中，使模型能够理解序列中元素的相对位置。

通过验证集评估模型的准确率和F1分数，比较预测结果与真实标签的匹配程度。

🏷️