该文介绍了使用CLIP和BLIP-2模型对DataComp挑战赛中的网络爬行数据进行过滤和修改的解决方案,以及利用外部数据集和技巧提高数据质量。实验证明该解决方案在DataComp基线的基础上取得了显著进展,筛选轨道改善了6.6%,BYOD轨道改善了48.5%。
完成下面两步后,将自动完成登录并继续当前操作。