本研究探讨大型语言模型在拒绝有害或不当提示时的非线性行为,强调非线性解释能力对对齐研究和安全人工智能部署的重要性。
本文介绍了复杂自适应系统(CAS)的定义和特征,包括多个相互连接和相互依赖的交互代理,并具有非线性行为。CAS算法性框架可以作为一个系统是否为CAS的审核工具,并应用于不同领域的案例研究。CAS的例子包括人类系统、生态系统、股票市场等。CAS与一般复杂系统CS的区别在于预期性。CAS的定义难以达成共识的原因是属性之间的重叠和模糊界限。CAS的代理需要具有自主性、主动性、反应性和社交能力等属性。CAS的稳健算法定义可以作为审计工具的基础。CAS的核心是记忆、学习、适应、聚合行为、演化过程、自组织和涌现。文章提出了CAS的新定义框架,并通过案例研究展示了其应用。
完成下面两步后,将自动完成登录并继续当前操作。