人工智能安全:通往末日的攀登?

📝

内容提要

AI 安全措施可能加剧而非减轻存在风险,对 AI 失败的不可避免性、失败点 AI 系统能力与伤害严重程度的预期相关性以及安全措施在失败前使 AI 系统更强大的倾向等核心假设提出负面预期效用。本文探讨了乐观主义、缓解和整体性三种应对策略,每种策略面临 AI 安全景观内固有特征所带来的挑战,例如瓶颈、完美障碍和平衡波动。该论点的意外稳健性迫使重新审视 AI 安全的核心假设,并指出了一些值得进一步研究的方向。

🏷️

标签

➡️

继续阅读