小红花·文摘

本研究提出“后门注入污染推荐系统”（BadRec）框架，探讨大型语言模型驱动的推荐系统在后门攻击下的安全性。研究表明，仅需污染1%的训练数据即可植入后门，并提出“污染扫描器”（P-Scanner）作为防御策略，利用大型语言模型检测被污染的数据。