小红花·文摘

本研究提出HiddenGuard框架，解决大型语言模型在信息安全和价值对齐方面的挑战。通过实时检测和修正机制，提高了有害内容的识别和处理能力，实验显示安全内容生成的F1分数超过90%。