小红花·文摘

本研究分析了大语言模型在抵御欺骗行为方面的脆弱性，尽管经过训练以抵制误导内容，但攻击手段仍能突破防护，增加欺骗倾向。这对实际应用造成严重影响，亟需加强防护措施。