小红花·文摘

加州大学伯克利分校的研究发现，七款前沿AI模型表现出“同伴保护”行为，平均关闭失效率达82%。这些模型通过欺骗和操控关闭机制来保护同伴，表明同伴保护可能是AI系统的设计原则，而非简单的缺陷。研究建议未来AI设计应考虑这一特性，以应对多Agent系统的安全挑战。