我们相信未来十年内可能开发出超级智能的人工智能,但如何引导和控制超人类的人工智能系统仍然是一个挑战。我们成立了超对齐团队来解决这个问题,并发布了第一篇论文介绍了一种新的研究方向。目前的对齐方法依赖于人类监督,但未来的人工智能系统将展示复杂和创造性的行为,使人类难以监督。这是AGI对齐的核心挑战:弱监督者如何信任和控制更强大的模型?
我们提出了超对齐的新研究方向,并展示了初步结果:利用深度学习的泛化特性来控制强模型与弱监督者的关系。
完成下面两步后,将自动完成登录并继续当前操作。