能否信任你的模型评估?通过合成测试数据提升模型评估
原文中文,约400字,阅读约需1分钟。发表于: 。评估机器学习模型在多样化和少数群体上的性能对于确保公平和可靠的实际应用至关重要。本研究引入了一种深度生成建模框架 3S Testing,通过为小型子群生成合成测试集并模拟分布偏移,促进模型评估。实验证明,3S Testing 在估计少数群体和可能的分布偏移的模型性能方面优于传统基准,包括仅使用真实测试数据,而且 3S...
本研究提出了3S Testing框架,通过生成合成测试集和模拟分布偏移来评估模型性能。实验证明,该框架在估计少数群体和可能的分布偏移方面优于传统基准。结果引发了一个问题,是否需要从真实测试数据转向合成测试数据的新方法。