小红花·文摘

本研究提出了一种基于人类反馈的自适应评分与阈值设定框架，旨在提高机器学习模型在分布外输入（OOD）检测中的安全性。该方法动态更新评分函数，确保高真正阳性率（TPR）和低假阳性率（FPR），在OpenOOD基准上优于现有技术。