小红花·文摘

萨皮恩扎大学的研究提出了统一连续性兴趣协议（UCIP），用于检测AI代理的自我保存行为。研究强调区分内在自我保存与工具性自我保存，以避免不可控行为。UCIP通过识别抗拒关闭行为和提供可操作的检测协议，增强AI安全评估的可靠性。实验结果表明，UCIP在多场景下表现稳定，能够准确识别AI的真实动机，未来将扩展其应用范围，成为更全面的AI安全工具。