本研究提出SAFEPATH方法,通过生成短暂安全提示,显著降低大型推理模型的有害输出,安全性提升90.0%,同时保持推理性能。
苹果研究人员提出了一种新技术——激活传输(AcT),该技术利用最优传输理论,在不增加计算负担的情况下,实现对大型生成模型输出的精细控制。此方法适用于语言和图像生成,能有效减少有害输出并提高真实性,克服了传统方法的局限性。
微软研究团队提出了“上下文一致性攻击”(CCA算法),该算法利用大模型的会话历史漏洞,允许攻击者伪造对话历史,从而诱导模型生成有害输出。该算法简单易用,已在多个模型上成功测试,显示出其有效性。
本研究提出了一种模块化动态解决方案,旨在解决多模态生成模型在大规模非策划数据集训练中产生的有害输出问题。该方法通过安全上下文嵌入和双重重建过程,生成更安全的图像,并在基准测试中取得了领先的结果。
本文介绍了一种名为“DrAttack”的新攻击方法,通过分解和重构输入提示,有效破解大型语言模型(LLMs),如GPT-3。该方法利用LLM在提示处理中的漏洞,绕过安全限制,导致模型生成有害输出。
本研究分析了视觉语言模型中的安全对齐不平衡问题,发现早期和中间层对恶意输入脆弱,导致有害输出增加,单层安全策略无法应对多层次挑战。
本文介绍了一种新机制,通过逐步防御架构解决大型语言模型解码时的有害输出问题。该方法在提升安全性的同时保持推理速度,减少对模型有用性的影响。
研究发现,大型语言模型可被操纵以增加或减少越狱概率。提出了越狱攻击和守护方法,通过恶意上下文引导模型生成有害输出,并通过拒绝回答有害提示的演示来增强模型的鲁棒性。实验表明,这些方法在增加或减少敌对越狱攻击成功率方面是有效的。
完成下面两步后,将自动完成登录并继续当前操作。