小红花·文摘

本文探讨了人工智能（AI）的安全性与对齐问题，提出将伦理理性与AI结合的方法，以避免伦理偏差。当前大型语言模型存在安全隐患，需要进行重大改进以实现超对齐，确保AI系统符合人类价值观。建议将对齐视为社会科学问题，建立多样化团队研究挑战，并提出五个核心价值观作为技术对齐的方向。