小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

模格是后量子密码学的核心,NIST 2024年发布的标准中,ML-KEM和ML-DSA基于模格问题。理解模格的数学本质是掌握后量子密码的基础。文章讨论了模格的定义、困难问题及安全性评估,适合具备线性代数与概率论基础的读者。

【密码学百科】格密码数学基础:SVP、LWE 与格基约化

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-06T00:00:00Z

DeepSeek发布了R1技术报告的64页补充内容,详细介绍了模型训练路径和安全性评估。新版本涵盖冷启动、推理导向RL等四个步骤,提升了模型的推理能力和安全性,团队成员流失少,显示出良好的内部稳定性。

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

量子位
量子位 · 2026-01-08T12:18:07Z
使用Cloudflare CASB对ChatGPT、Claude和Gemini进行安全扫描

Cloudflare One用户可通过API评估生成性AI工具(如ChatGPT、Claude和Gemini)的安全性,检测配置错误、数据泄露和合规风险,无需安装软件。这一工具帮助IT和安全团队安全采用AI,保护企业网络和数据。

使用Cloudflare CASB对ChatGPT、Claude和Gemini进行安全扫描

The Cloudflare Blog
The Cloudflare Blog · 2025-08-26T14:00:00Z

本研究提出了“保留评分”指标,以量化视觉语言模型(VLMs)抵御越狱攻击的能力。结果表明,大多数VLMs对这些攻击的鲁棒性较低,提供了一种有效的安全性评估方法。

Retention Score: Quantifying Jailbreak Risks for Vision Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z

本文探讨了多模态大型语言模型(MLLMs)的安全性评估与对抗问题,提出了ECSO方法和CoCA技术以提高模型安全性。研究指出,现有模型在隐私、偏见和安全推理方面仍存在不足,强调未来研究的重要性。

音频是致命弱点:对音频大型多模态模型的红队测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本文探讨了大型语言模型(LLM)的安全性评估及对抗攻击,重点分析了后门攻击的威胁及防御措施。研究提出了新型后门攻击方法POISONPROMPT,强调定制化模型的脆弱性,并提出了针对多语言LLM的攻击策略。实验验证了攻击的有效性,呼吁加强对LLM安全风险的关注和防护。

减轻大语言模型的后门威胁:进展与挑战

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本文探讨了大型语言模型(LLMs)的安全性评估与对抗攻击,分析了其漏洞及防御措施。研究表明,LLMs能够生成对抗性样本,影响仇恨言论检测系统。提出了新型攻击策略和防御框架,强调了Prompt Hacking和对抗攻击的威胁,呼吁加强防御能力以应对复杂攻击。

迅速升级:单回合渐增攻击(STCA)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

本文探讨了大型语言模型(LLMs)的安全性评估与对抗攻击,分析了其脆弱性及防御策略。研究表明,仅需1%的数据样本即可成功毒化模型,并提出了新型数据污染攻击和梯度引导的后门触发器学习方法。重点关注Prompt Hacking和对抗攻击,强调保护LLMs免受威胁的重要性,并提出创新防御策略以提高模型的鲁棒性。

检测人工智能缺陷:针对语言模型内部缺陷的目标驱动攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文介绍了Adversarial GLUE(AdvGLUE),一个评估大型语言模型在文本对抗攻击下脆弱性的多任务基准。研究发现,词级攻击更有效,而字符级攻击更实用。提出的C-AdvUL和C-AdvIPO算法显著提高了模型的鲁棒性。文章强调了对抗攻击的安全性评估及其对智能系统的影响,呼吁开发更强的防御措施。

迈向韧性和高效的大型语言模型:效率、性能和对抗鲁棒性的比较研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

本文探讨了大型语言模型(LLMs)的安全性评估及对抗攻击,分析了Prompt Hacking和对抗攻击的威胁及防御措施。研究表明,LLMs在漏洞检测中表现优越,但易受攻击,尤其在医疗应用中可能导致严重后果。强调了增强对LLMs安全性认识的重要性,并提出了有效的防御框架以应对这些挑战。

通过机理可解释性检测和理解语言模型中的漏洞

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

本文探讨了多种加密算法及其安全性评估,特别是基于混沌理论的图像加密方案和块级置换加密方案。这些方案在保护个人信息和抵御攻击方面表现出色,尤其适用于图像传输和存储。

AES、Blowfish、Twofish、Salsa20 和 ChaCha20 的图像加密比较分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

本文回顾了大型语言模型的安全性评估数据集,提出了GradSafe方法以检测不安全提示,并引入了SimpleSafetyTests测试套件,发现多个开源模型存在安全弱点。同时,研究分析了心理健康对话中的安全性,建立了多语言安全基准(XSafety),并提出了改进提示工程的方法以提高生成内容的安全性和质量。

Safe-Embed: 揭示句子编码器的安全关键知识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

本研究深入探讨了多语言越狱攻击,提出了一种新算法以创建数据集,并评估了多种语言模型的防御能力。结果表明,缓解策略将攻击成功率降低了96.2%。研究强调了对大型语言模型的安全性评估和防御技术的重要性,并提供了基准测试框架以推动相关研究。

知识破解:一知识点价值一次攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文探讨了大型语言模型(LLMs)的安全性评估与对抗问题,提出了攻击框架和自动红队方法以增强模型安全性。研究表明,LLMs易产生内隐性毒性输出,因此需要开发更鲁棒的检测系统。计划创建名为Sentinel的模型用于网络安全分析,并通过对抗测试识别漏洞,提升整体安全性。

微小的改进引发韧性:朝着高效的前缀模型抵御 LLM 红队行动

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-21T00:00:00Z

本研究针对视觉-语言预训练模型的鲁棒性问题,提出了协作多模态对抗攻击和CMI-Attack等新型攻击方法,显著提高了攻击成功率。研究强调模态交互在增强对抗鲁棒性中的重要性,并呼吁对视觉-语言模型的安全性进行更全面的评估。

再审视视觉语言模型的对抗鲁棒性:一种多模态的观点

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-30T00:00:00Z

该研究基于SafetyBench设计了评估大型语言模型安全性的工具,测试发现GPT-4表现优异但仍需改进。引入SimpleSafetyTests测试套件,发现多模型存在安全弱点,超过20%的回答不安全。研究还开发了中文LLM安全评估基准,分析了15个模型的安全表现,并提出了基于价值观的设计框架以提升模型安全性。

MLCommons AI 安全基准 v0.5 发布

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z

本文探讨了中文大型语言模型(LLM)的安全性评估,提出了针对不同风险类型的评估标准,并开发了多语言安全基准(XSafety)。研究发现区域特定风险是主要问题,许多开源模型存在安全弱点。通过引入新的测试套件和细致标注的数据集,显著提高了模型的安全性,建议开发者加强系统提示以降低风险。

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

本文研究射频机器学习中的对抗性机器学习,提出了一种在无线通信中评估对抗性成功的方法,并使用快速梯度符号方法评估了 RFML 的安全性。研究发现,即使在 OTA 攻击下,RFML 也容易受到对抗性示例的攻击,但针对 RFML 特定领域的接收机效应可以在对抗性逃避方面产生重大影响。

Magmaw: 基于机器学习的无线通信系统中的模态不可知对抗攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-01T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码