小红花·文摘

该研究提出了一种名为ShieldLM的安全检测器，基于大型语言模型，支持定制检测规则，并提供决策解释。研究表明，ShieldLM在测试中表现出色，具有可定制性和可解释性。