评估严重急性呼吸综合症数据集的预训练偏差
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
大规模实证研究发现,使用多个医院的数据集训练的模型精度较仅使用单个医院的数据训练的模型更差,原因是医院特定的图像伪相关性。未来的研究和实践需要谨慎选择数据和评估模型。
🎯
关键要点
- 大规模实证研究结合四个开源胸部 X 光数据集和九个标签组合进行模型训练。
- 使用来自两家医院的数据训练的模型在精度上比仅使用单家医院的数据更差。
- 结果的原因是医院特定的图像伪相关性。
- 训练多个数据集存在权衡,额外数据的好处与伪相关性的隐蔽成本。
- 未来研究和实践需要谨慎选择数据和评估模型。
➡️