小红花·文摘

本研究提出了一种新颖的攻击手段——定向表示优化越狱（DROJ），旨在解决大语言模型生成不当内容的问题。该方法通过优化提示，实现了100%的关键字攻击成功率，并降低了模型拒绝有害查询的可能性，显示出其潜在影响力。