Ollabench: 评估 LLMs 在人类中心互相依赖的网络安全方面的推理能力
原文中文,约300字,阅读约需1分钟。发表于: 。通过 OllaBench 评估框架,综合考虑人类因素和认知计算能力,评估了 21 种大型语言模型在情景信息安全合规和不合规问题中的准确性、浪费程度和一致性,结果显示商业模型的整体准确性最高,但仍有改进的空间,小型开放权重模型表现不逊,模型间的记号效率和一致性存在显著差异,OllaBench 为人类中心的相互依赖性网络安全及其他领域的研究人员和解决方案开发者提供了一个用户友好的接口和广泛的 LLM 平台支持。
OllaBench评估了21种大型语言模型在情景信息安全合规和不合规问题中的准确性、浪费程度和一致性。商业模型准确性高,但仍有改进空间。小型开放权重模型表现不错。OllaBench提供用户友好的接口和广泛的LLM平台支持。