本研究探讨了大型语言模型的审计问题,提出了一种基于好奇心驱动的审计方法CALM,通过强化学习优化审计过程,提高识别有害和偏见输入输出对的能力,为黑盒LLMs的审计提供新思路。
完成下面两步后,将自动完成登录并继续当前操作。