LANCE是一种用于自动化模型应力测试的算法,利用语言模型和图像编辑技术生成多样性和挑战性的测试图像,评估预训练模型性能。研究结果显示,不同类型的编辑会导致模型性能下降,揭示了ImageNet中未知的类别级别模型偏差。
本文介绍了一种名为LANCE的算法,用于自动化模型应力测试。该算法利用语言引导和文本编辑技术,增加了IID测试集的多样性和挑战性,而不改变模型权重。作者对多个预训练模型进行了测试,发现它们在性能上有显著且一致的下降。此外,作者还分析了不同类型编辑对模型的敏感性,并展示了其在揭示ImageNet中未知类别级别模型偏差方面的应用。
完成下面两步后,将自动完成登录并继续当前操作。