小红花·文摘

SophosAI研究团队评估了大型语言模型（LLM）在网络安全应用中的性能，并创建了三个基于任务的基准测试。测试结果显示，GPT-4在事件调查和事件摘要方面表现最好，而在事件严重性评估方面，大多数模型准确率不高。总体而言，GPT-4和Claude v2模型在所有基准测试中表现最佳。CodeLlama-34B模型适合作为SOC助手部署。