本研究提出了一种全面的拒绝分类框架,涵盖16个拒绝类别,并包含8600个实例的人类标注数据集和8000个合成数据集。该框架能够精确审计黑箱LLMs中的拒绝行为,促进更安全可靠的LLMs发展。
完成下面两步后,将自动完成登录并继续当前操作。