小红花·文摘

通过实证研究，提出了新的语义保持算法来创建多语言越狱数据集，并评估了开源和商业语言模型，实施了缓解方法。研究发现，缓解策略显著增强了模型的防御能力，降低了攻击成功率96.2%。这项研究为理解和缓解多语言越狱攻击提供了见解。