小红花·文摘

本研究提出了3S Testing框架，通过生成合成测试集和模拟分布偏移来评估模型性能。实验证明，该框架在估计少数群体和可能的分布偏移方面优于传统基准。结果引发了一个问题，是否需要从真实测试数据转向合成测试数据的新方法。