来自 AI Secure 实验室的 LLM 安全排行榜简介
原文约2900字/词,阅读约需7分钟。发表于: 。近来,LLM 已深入人心,大有燎原之势。但在我们将其应用于千行百业之前,理解其在不同场景下的安全性和潜在风险显得尤为重要。为此,美国白宫发布了关于安全、可靠、可信的人工智能的行政命令; 欧盟人工智能法
AI Secure Lab发布了DecodingTrust渠道,这是一个全面且一致的LLM可信度评估框架,涵盖了8个维度,包括毒性、偏见、鲁棒性、隐私、伦理和公平性。该框架提供了分析、定制的红队算法和排名系统。它还评估了LLM在各种场景下的性能。研究发现,GPT-4比GPT-3.5更容易受到攻击,没有任何LLM在所有维度上表现出色。可以使用safetensors格式提交模型进行评估。