小红花·文摘

研究人员开发了“宪法分类器”，有效防止AI模型遭受通用越狱攻击。该系统通过合成数据训练，将越狱成功率从86%降低至4.4%。尽管保护显著，但仍需额外防御措施应对新技术。