网络统计:用于评估大型语言模型在网络安全领域的基准数据集
原文中文,约500字,阅读约需1分钟。发表于: 。介绍了 CyberMetric,这是一个包含 10,000 个问题的基准数据集,通过合作过程结合人类专家知识和大型语言模型(LLMs)来创建问题,主要目标是在网络安全领域中促进人类和不同 LLMs 之间的公平比较,结果显示 LLMs 在几乎所有网络安全方面表现优于人类。
TeleQnA是一个用于评估大型语言模型在电信领域知识的数据集。研究结果显示,GPT-3.5和GPT-4等模型在处理复杂问题方面存在困难,但在解答一般电信问题时表现出色。将电信知识背景纳入模型可以显著提高性能。LLMs在电信知识方面可以与专业人士相媲美,展示了它们在该领域的潜力。数据集已在GitHub上公开获取。