小红花·文摘

本研究提出了一种全面的拒绝分类框架，涵盖16个拒绝类别，并包含8600个实例的人类标注数据集和8000个合成数据集。该框架能够精确审计黑箱LLMs中的拒绝行为，促进更安全可靠的LLMs发展。