小红花·文摘

本研究探讨了大型语言模型中的数据污染攻击，提出了一种新方法以识别和规避这些攻击。实验表明，仅使用1%的数据样本即可成功毒化模型，影响用户隐私。研究还总结了机器学习领域的相关文献，分析了现有防御的不足，并提出改进建议。