小红花·文摘

模格是后量子密码学的核心，NIST 2024年发布的标准中，ML-KEM和ML-DSA基于模格问题。理解模格的数学本质是掌握后量子密码的基础。文章讨论了模格的定义、困难问题及安全性评估，适合具备线性代数与概率论基础的读者。

【密码学百科】格密码数学基础：SVP、LWE 与格基约化

土法炼钢兴趣小组的博客 ·

DeepSeek发布了R1技术报告的64页补充内容，详细介绍了模型训练路径和安全性评估。新版本涵盖冷启动、推理导向RL等四个步骤，提升了模型的推理能力和安全性，团队成员流失少，显示出良好的内部稳定性。

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

量子位 ·

使用Cloudflare CASB对ChatGPT、Claude和Gemini进行安全扫描

The Cloudflare Blog ·

本研究提出了“保留评分”指标，以量化视觉语言模型（VLMs）抵御越狱攻击的能力。结果表明，大多数VLMs对这些攻击的鲁棒性较低，提供了一种有效的安全性评估方法。

Retention Score: Quantifying Jailbreak Risks for Vision Language Models

BriefGPT - AI 论文速递 ·

本文探讨了多模态大型语言模型（MLLMs）的安全性评估与对抗问题，提出了ECSO方法和CoCA技术以提高模型安全性。研究指出，现有模型在隐私、偏见和安全推理方面仍存在不足，强调未来研究的重要性。

音频是致命弱点：对音频大型多模态模型的红队测试

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）的安全性评估及对抗攻击，重点分析了后门攻击的威胁及防御措施。研究提出了新型后门攻击方法POISONPROMPT，强调定制化模型的脆弱性，并提出了针对多语言LLM的攻击策略。实验验证了攻击的有效性，呼吁加强对LLM安全风险的关注和防护。

减轻大语言模型的后门威胁：进展与挑战

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的安全性评估与对抗攻击，分析了其漏洞及防御措施。研究表明，LLMs能够生成对抗性样本，影响仇恨言论检测系统。提出了新型攻击策略和防御框架，强调了Prompt Hacking和对抗攻击的威胁，呼吁加强防御能力以应对复杂攻击。

迅速升级：单回合渐增攻击（STCA）

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的安全性评估与对抗攻击，分析了其脆弱性及防御策略。研究表明，仅需1%的数据样本即可成功毒化模型，并提出了新型数据污染攻击和梯度引导的后门触发器学习方法。重点关注Prompt Hacking和对抗攻击，强调保护LLMs免受威胁的重要性，并提出创新防御策略以提高模型的鲁棒性。

检测人工智能缺陷：针对语言模型内部缺陷的目标驱动攻击

BriefGPT - AI 论文速递 ·

本文介绍了Adversarial GLUE（AdvGLUE），一个评估大型语言模型在文本对抗攻击下脆弱性的多任务基准。研究发现，词级攻击更有效，而字符级攻击更实用。提出的C-AdvUL和C-AdvIPO算法显著提高了模型的鲁棒性。文章强调了对抗攻击的安全性评估及其对智能系统的影响，呼吁开发更强的防御措施。

迈向韧性和高效的大型语言模型：效率、性能和对抗鲁棒性的比较研究

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的安全性评估及对抗攻击，分析了Prompt Hacking和对抗攻击的威胁及防御措施。研究表明，LLMs在漏洞检测中表现优越，但易受攻击，尤其在医疗应用中可能导致严重后果。强调了增强对LLMs安全性认识的重要性，并提出了有效的防御框架以应对这些挑战。

通过机理可解释性检测和理解语言模型中的漏洞

BriefGPT - AI 论文速递 ·

本文探讨了多种加密算法及其安全性评估，特别是基于混沌理论的图像加密方案和块级置换加密方案。这些方案在保护个人信息和抵御攻击方面表现出色，尤其适用于图像传输和存储。

AES、Blowfish、Twofish、Salsa20 和 ChaCha20 的图像加密比较分析

BriefGPT - AI 论文速递 ·

本文回顾了大型语言模型的安全性评估数据集，提出了GradSafe方法以检测不安全提示，并引入了SimpleSafetyTests测试套件，发现多个开源模型存在安全弱点。同时，研究分析了心理健康对话中的安全性，建立了多语言安全基准（XSafety），并提出了改进提示工程的方法以提高生成内容的安全性和质量。

Safe-Embed: 揭示句子编码器的安全关键知识

BriefGPT - AI 论文速递 ·

本研究深入探讨了多语言越狱攻击，提出了一种新算法以创建数据集，并评估了多种语言模型的防御能力。结果表明，缓解策略将攻击成功率降低了96.2%。研究强调了对大型语言模型的安全性评估和防御技术的重要性，并提供了基准测试框架以推动相关研究。

知识破解：一知识点价值一次攻击

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的安全性评估与对抗问题，提出了攻击框架和自动红队方法以增强模型安全性。研究表明，LLMs易产生内隐性毒性输出，因此需要开发更鲁棒的检测系统。计划创建名为Sentinel的模型用于网络安全分析，并通过对抗测试识别漏洞，提升整体安全性。

微小的改进引发韧性：朝着高效的前缀模型抵御 LLM 红队行动

BriefGPT - AI 论文速递 ·

本研究针对视觉-语言预训练模型的鲁棒性问题，提出了协作多模态对抗攻击和CMI-Attack等新型攻击方法，显著提高了攻击成功率。研究强调模态交互在增强对抗鲁棒性中的重要性，并呼吁对视觉-语言模型的安全性进行更全面的评估。

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

BriefGPT - AI 论文速递 ·

该研究基于SafetyBench设计了评估大型语言模型安全性的工具，测试发现GPT-4表现优异但仍需改进。引入SimpleSafetyTests测试套件，发现多模型存在安全弱点，超过20%的回答不安全。研究还开发了中文LLM安全评估基准，分析了15个模型的安全表现，并提出了基于价值观的设计框架以提升模型安全性。

MLCommons AI 安全基准 v0.5 发布

BriefGPT - AI 论文速递 ·

本文探讨了中文大型语言模型（LLM）的安全性评估，提出了针对不同风险类型的评估标准，并开发了多语言安全基准（XSafety）。研究发现区域特定风险是主要问题，许多开源模型存在安全弱点。通过引入新的测试套件和细致标注的数据集，显著提高了模型的安全性，建议开发者加强系统提示以降低风险。

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

BriefGPT - AI 论文速递 ·

本文研究射频机器学习中的对抗性机器学习，提出了一种在无线通信中评估对抗性成功的方法，并使用快速梯度符号方法评估了 RFML 的安全性。研究发现，即使在 OTA 攻击下，RFML 也容易受到对抗性示例的攻击，但针对 RFML 特定领域的接收机效应可以在对抗性逃避方面产生重大影响。

Magmaw: 基于机器学习的无线通信系统中的模态不可知对抗攻击

BriefGPT - AI 论文速递 ·