小红花·文摘

本研究提出SAFEPATH方法，通过生成短暂安全提示，显著降低大型推理模型的有害输出，安全性提升90.0%，同时保持推理性能。

BriefGPT - AI 论文速递 ·

Apple Machine Learning Research ·

微软研究团队提出了“上下文一致性攻击”（CCA算法），该算法利用大模型的会话历史漏洞，允许攻击者伪造对话历史，从而诱导模型生成有害输出。该算法简单易用，已在多个模型上成功测试，显示出其有效性。

FreeBuf网络安全行业门户 ·

本研究提出了一种模块化动态解决方案，旨在解决多模态生成模型在大规模非策划数据集上训练时可能产生的有害输出问题。该方法通过安全上下文嵌入和双重重建过程，在不损害学习流形结构的情况下生成更安全的图像，并在基准测试中取得了先进的结果。

BriefGPT - AI 论文速递 ·

DEV Community ·

本研究分析了视觉语言模型中的安全对齐不平衡问题，发现早期和中间层对恶意输入脆弱，导致有害输出增加，单层安全策略无法应对多层次挑战。

BriefGPT - AI 论文速递 ·

本文介绍了一种新机制，通过逐步防御架构解决大型语言模型解码时的有害输出问题。该方法在提升安全性的同时保持推理速度，减少对模型有用性的影响。

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在敏感环境中的安全性，发现简单的输入空格可以破坏模型的防御机制，导致有害输出。研究强调了当前模型对齐的脆弱性，并提出了改进对抗性攻击防御的方法，以确保模型在实际应用中的安全性和有效性。

BriefGPT - AI 论文速递 ·

研究发现，大型语言模型可被操纵以增加或减少越狱概率。提出了越狱攻击和守护方法，通过恶意上下文引导模型生成有害输出，并通过拒绝回答有害提示的演示来增强模型的鲁棒性。实验表明，这些方法在增加或减少敌对越狱攻击成功率方面是有效的。

BriefGPT - AI 论文速递 ·