麻省理工学院的研究发现,大型语言模型(LLMs)有时会错误依赖语法模式而非领域知识,导致在新任务中表现不佳,甚至可能被恶意利用生成有害内容。研究人员开发了一种基准测试程序,以评估模型对错误关联的依赖,从而帮助开发者在部署前减轻这一问题。
完成下面两步后,将自动完成登录并继续当前操作。