本研究探讨大型语言模型的元认知能力,提出神经反馈范式以量化其激活模式的报告与控制能力。结果表明,LLMs能够学习这些能力,但受到示例数量和语义可解释性等因素的影响,揭示了其监测能力的局限性,为人工智能安全提供了实证依据。
本研究提出了一种算法,通过混合整数线性规划计算非线性离散时间神经反馈环的反向低估可达集,以提升学习驱动的规划和控制算法的性能与安全性,并增强系统的可验证性。
完成下面两步后,将自动完成登录并继续当前操作。