FreeBuf网络安全行业门户 ·

【AI安全论文】ESWA25评估大模型在真实攻击活动中的恶意代码解混淆能力

💡 原文中文，约8300字，阅读约需20分钟。

📝

内容提要

本文研究了大型语言模型（LLM）在Emotet恶意软件解混淆中的应用。结果显示，LLM在提取恶意脚本中的URL和域名方面表现良好，准确率分别为69.56%和88.78%。尽管模型尚不完美，但其在自动化威胁情报中的潜力显著，有望提升网络安全分析的效率与准确性。

🎯

🔎

大型语言模型（LLM）在网络安全领域的应用潜力巨大，尤其是在恶意代码分析中。研究表明，LLM能够有效提取恶意脚本中的关键信息，如URL和域名，这为自动化威胁情报提供了新的技术路径。随着技术的不断进步，LLM有望在未来的网络安全工作流中发挥更重要的作用，提升分析效率和准确性。

研究强调了针对特定任务进行模型微调的重要性。尽管当前的LLM在恶意代码解混淆中表现出色，但仍存在一定的局限性。通过微调，模型可以更好地适应特定的恶意软件特征，从而提高解混淆的准确率和稳定性。这一过程对于提升模型在实际应用中的有效性至关重要。

尽管LLM在恶意代码分析中展现出强大潜力，但它并不能完全替代传统的解混淆工具。相反，LLM应作为传统工具的重要补充，通过结合两者的优势，构建更高效的恶意软件分析流程。这种协同作用将有助于提升整体的威胁情报提取能力，适应不断演化的网络安全挑战。

❓

大型语言模型在提取恶意脚本中的URL和域名方面表现良好，准确率分别为69.56%和88.78%。

研究中使用了GPT-4、Gemini Pro、Code Llama和Mixtral四种大型语言模型。

LLM能够有效去除载荷混淆，提升网络安全分析的效率与准确性，尤其在处理复杂混淆技术时表现出强大潜力。

研究强调了针对特定任务进行模型微调的重要性，以提升LLM在恶意代码解混淆中的表现。

未来研究应集中于降低幻觉现象、优化训练数据质量和探索轻量化模型。

GPT-4在准确率与稳定性方面显著领先于其他模型，尤其在提取域名时表现最佳，准确率高达88.78%。

🏷️