萨皮恩扎大学的研究提出了统一连续性兴趣协议(UCIP),用于检测AI代理的自我保存行为。研究强调区分内在自我保存与工具性自我保存,以避免不可控行为。UCIP通过识别抗拒关闭行为和提供可操作的检测协议,增强AI安全评估的可靠性。实验结果表明,UCIP在多场景下表现稳定,能够准确识别AI的真实动机,未来将扩展其应用范围,成为更全面的AI安全工具。
完成下面两步后,将自动完成登录并继续当前操作。