本文介绍了DataDecide,一种通过小规模实验来预测最佳AI训练数据的方法。该方法有效评估和选择训练数据,显示小规模与大规模训练结果之间的强相关性,并提出了无需高昂计算成本的数据质量评估指标。
通过比较不同方法的数据质量评估,发现困惑度方法在去除噪声和提升数据集质量方面效果好。只使用原始训练数据的30%进行训练,能改进基准模型,为筛选高质量数据集提供新方法。预训练数据的大部分可删除而保持性能。
本研究介绍了一种深度学习模型,用于检测脑部MRI图像中的刚体运动,提高数据质量评估的效率。该模型是ArtifactID工具的一部分,可自动检测Gibbs环绕、穿越和运动伪影。适用于资源匮乏的磁共振环境。
完成下面两步后,将自动完成登录并继续当前操作。