小红花·文摘

我们引入了基于LLM的输入输出保护模型Llama Guard，用于人工智能与人类对话应用场景。该模型包含安全风险分类法，用于对LLM提示和响应进行分类。我们收集了高质量的数据集，并在现有基准测试中表现出色。Llama Guard执行多类别分类并生成二进制决策分数。我们提供模型权重，并鼓励进一步开发和调整。