本研究提出了3S Testing框架,通过生成合成测试集和模拟分布偏移来评估模型性能。实验证明,该框架在估计少数群体和可能的分布偏移方面优于传统基准。结果引发了一个问题,是否需要从真实测试数据转向合成测试数据的新方法。
完成下面两步后,将自动完成登录并继续当前操作。