从弱到强的泛化
原文英文,约200词,阅读约需1分钟。发表于: 。We present a new research direction for superalignment, together with promising initial results: can we leverage the generalization properties of deep learning to control strong models with weak...
我们相信未来十年内可能开发出超级智能的人工智能,但如何引导和控制超人类的人工智能系统仍然是一个挑战。我们成立了超对齐团队来解决这个问题,并发布了第一篇论文介绍了一种新的研究方向。目前的对齐方法依赖于人类监督,但未来的人工智能系统将展示复杂和创造性的行为,使人类难以监督。这是AGI对齐的核心挑战:弱监督者如何信任和控制更强大的模型?