本研究探讨了大型语言模型的审计问题,提出了一种基于好奇心驱动的审计方法CALM,通过强化学习优化审计过程,提高识别有害和偏见输入输出对的能力,为黑盒LLMs的审计提供新思路。
本研究探讨了强化学习中的稀疏奖励问题,提出了一种结合好奇心驱动探索与无监督辅助任务的新方法。通过内在动机学习和模仿学习优化探索行为,提升样本效率和泛化能力。同时,研究介绍了多智能体内在奖励框架及其在复杂环境中的应用,强调内在奖励的重要性。
完成下面两步后,将自动完成登录并继续当前操作。