DeepMind新方法:训练时间减少13倍,算力降低90%

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

DeepMind团队提出了一种新的数据筛选方法JEST,可以将AI训练时间减少13倍,算力需求降低90%。该方法通过选择最佳数据批次进行训练,提高了训练效率和效果。研究结果显示,JEST大幅加速了大规模多模态预训练,迭代次数和浮点运算次数减少了10倍。新方法的运作过程是从一个更大的候选数据集中选择最佳的训练数据批次。团队成员进一步解释了多模态对比学习的过程和JEST的具体实现。该研究对于改变AI训练的游戏规则具有重要意义。

🎯

关键要点

  • DeepMind团队提出的新数据筛选方法JEST可以将AI训练时间减少13倍,算力需求降低90%。
  • JEST通过选择最佳数据批次进行训练,提高了训练效率和效果。
  • 研究显示,JEST加速了大规模多模态预训练,迭代次数和浮点运算次数减少了10倍。
  • 现有的数据筛选方法速度慢、成本高,限制了多模态学习的效率提升。
  • 研究得出挑选好的数据批次比单独挑选数据点更为有效的结论。
  • JEST能够在仅使用10%的FLOP预算的情况下超越之前的最先进水平。
  • JEST选择那些对于预训练模型容易但对于当前学习模型较难的数据点,以提高训练效率。
  • 多分辨率训练对于协调评分和学习者模型至关重要。
  • JEST++和FlexiJEST++的性能显著优于许多其他先前的SOTA模型,同时计算量更少。
  • 研究发现JEST++可以简化数据管理流程,几乎不影响性能。
➡️

继续阅读