Supertrust: 基于进化的超对准策略用于安全共存
原文中文,约300字,阅读约需1分钟。发表于: 。如何在超人工智能和人类之间建立双向的保护性互信的问题被重新定义,并提出了通过本能而非培养的方法来解决这一问题。采用此 Supertrust 对齐策略将实现保护性共存,确保人类的最安全未来。
本文讨论了实现AI系统中终身超对齐的挑战,特别是大型语言模型(LLMs)。作者认为实现超对齐需要对LLM体系结构进行重大改变,因为它们在理解和适应人类伦理和全球情景方面存在局限性。通过分析两个例子,作者阐明了LLM面对训练数据的限制,无法与当代人类价值观和情景相契合。最后,本文探讨了解决和减轻对齐差异的潜在策略,提出了追求更适应和响应性的AI系统的路径。