本研究提出HiddenGuard框架,解决大型语言模型在信息安全和价值对齐方面的挑战。通过实时检测和修正机制,提高了有害内容的识别和处理能力,实验显示安全内容生成的F1分数超过90%。
完成下面两步后,将自动完成登录并继续当前操作。