小红花·文摘

本研究评估了大型语言模型在个性化对齐方面的能力，特别是在处理用户提供的安全关键上下文时。分析表明，即使是最优秀的模型在理解用户需求时也存在系统性不一致，强调了需要更细致的对齐方法以促进安全的人工智能助手发展。