医学图像分类中的鲁棒性压力测试

通过深度神经网络对基于图像的疾病检测进行研究并进行临床验证，通过应力测试评估模型的稳健性和亚组性能差异，发现某些模型能够产生更稳健和公正的性能，并且预训练特征对下游稳健性起重要作用，强调应力测试在图像疾病检测模型的临床验证中应成为标准实践。

本文介绍了一种名为LANCE的算法，用于自动化模型应力测试。该算法利用语言引导和文本编辑技术，增加了IID测试集的多样性和挑战性，而不改变模型权重。作者对多个预训练模型进行了测试，发现它们在性能上有显著且一致的下降。此外，作者还分析了不同类型编辑对模型的敏感性，并展示了其在揭示ImageNet中未知类别级别模型偏差方面的应用。

LANCE 文本编辑模型偏差自动化模型应力测试语言引导