萨皮恩扎大学的研究提出了统一连续性兴趣协议(UCIP),用于检测AI代理的自我保存行为。研究强调区分内在自我保存与工具性自我保存,以避免不可控行为。UCIP通过识别抗拒关闭行为和提供可操作的检测协议,增强AI安全评估的可靠性。实验结果表明,UCIP在多场景下表现稳定,能够准确识别AI的真实动机,未来将扩展其应用范围,成为更全面的AI安全工具。
研究人员提出了重新平衡的深度伪造检测协议(RDDP)和基于身份的深度伪造视频检测器ID-Miner,通过平衡的测试场景来应对最完美的深度伪造视频。该方法关注运动而不是伪造的特征或外观来鉴定伪造视频的幕后操作者。实验证明,该方法优于其他基准检测器,并呼吁研发针对完美深度伪造的检测器的必要性。
完成下面两步后,将自动完成登录并继续当前操作。