小红花·文摘

通过AI Gateway中的Guardrails确保AI交互安全无风险

The Cloudflare Blog ·

模块化：使用 MAX 24.6 和 Hugging Face 评估 Llama Guard

Modular Blog ·

Meta AI 发布 Llama Guard 3-1B-INT4：用于人机对话的紧凑型高性能 AI 调节模型

实时互动网 ·

本文研究了大型语言模型（LLMs）的安全性，发现微调可能增加安全风险。尽管现有安全措施在推理时有效，但无法覆盖用户微调带来的所有风险。研究提出了Llama Guard模型，以提高LLMs的安全性，并提供了新的多任务安全数据集以降低攻击成功率。此外，探讨了LLMs在多语言环境中的毒性内容处理及科学研究中的应用问题，并提出了相应的解决方案。

轻量级安全保护栏：使用微调的BERT嵌入

BriefGPT - AI 论文速递 ·

在Databricks上推出Meta Llama 3.2：更快的语言模型与强大的多模态模型

Databricks ·

Gemma 是一系列先进的开放模型，特别在语言理解和安全性方面表现出色。我们发布了两个规模的模型，并评估了其安全性。Llama Guard 是一种基于 LLM 的安全保护模型，能够分类安全风险并生成决策分数。LLMSafeGuard 提供实时文本生成的安全保障，表现优越。此外，研究还提出了 ShieldLM 和 LLMGuard 等工具，以增强大型语言模型的安全性和可解释性。

ShieldGemma: 基于 Gemma 的生成性人工智能内容审查

BriefGPT - AI 论文速递 ·

本文介绍了Llama Guard，一种基于大型语言模型（LLM）的安全保护模型，旨在分类和检测与人工智能对话相关的安全风险。Llama Guard在多个基准测试中表现优异，支持定制任务和输出格式，增强了模型的安全性。研究还探讨了LLM的破解攻击及其防护措施，强调了评估和预防不同破解方法的必要性，以提升LLM的安全性和可靠性。

WildGuard: 一站式开源安全风险、越狱及拒绝率审核工具

BriefGPT - AI 论文速递 ·