本文讨论了实现AI系统中终身超对齐的挑战,特别是大型语言模型(LLMs)。作者认为实现超对齐需要对LLM体系结构进行重大改变,因为它们在理解和适应人类伦理和全球情景方面存在局限性。通过分析两个例子,作者阐明了LLM面对训练数据的限制,无法与当代人类价值观和情景相契合。最后,本文探讨了解决和减轻对齐差异的潜在策略,提出了追求更适应和响应性的AI系统的路径。
我们提出了超对齐的新研究方向,并展示了初步结果:利用深度学习的泛化特性来控制强模型与弱监督者的关系。
完成下面两步后,将自动完成登录并继续当前操作。