小红花·文摘

本文介绍了一种新的代理定义，利用因果建模分析人工智能代理的决策和激励。研究提出因果影响图（CID）作为建模工具，以识别代理行为的潜在风险。通过实验干预，开发了三种算法，从因果实验中发现代理并表示为CID。这种方法有助于提高人工智能系统的安全性分析，确保代理适应环境变化。