InfoQ ·

谷歌的JEST算法自动化AI训练数据集筛选并减少计算量

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

Google DeepMind发布了新算法JEST，用于筛选AI训练数据集。JEST使用预训练模型评分数据批次的可学习性，实验证明JEST筛选的模型计算量比基准方法少10倍。JEST自动化筛选训练数据集，找到对学习模型而言损失高但对参考模型而言损失低的批次。研究团队发现JEST提高了批次质量。JEST使用模型近似进行高效评分，通过删除层或图像补丁提高效率。DeepMind团队多次实验证明JEST在相同性能下减少了10倍训练FLOPS。

🎯

关键要点

Google DeepMind发布了新算法JEST，用于筛选AI训练数据集。
JEST使用预训练模型评分数据批次的可学习性，实验证明JEST筛选的模型计算量比基准方法少10倍。
JEST自动化筛选训练数据集，找到对学习模型而言损失高但对参考模型而言损失低的批次。
研究团队发现JEST提高了批次质量，类似于困难负样本的概念。
JEST在训练过程中应用，通过计算子批次的联合可学习性来选择数据。
为了提高效率，JEST使用模型近似进行高效评分，允许在不同图像分辨率下训练学习者。
DeepMind团队的实验表明，使用JEST训练的模型在相同性能下减少了10倍训练FLOPS。
Hacker News上的用户对DeepMind的工作表示赞赏，认为其方法具有重要意义。
JEST与另一种方法Cappy相似，后者也使用预训练的小评分模型。
相关技术包括启发JEST的RHO-LOSS，但Google尚未开源JEST。

❓

延伸问答

JEST算法的主要功能是什么？

JEST算法用于自动化筛选AI训练数据集，以提高数据质量和减少计算量。

JEST如何减少训练计算量？

JEST通过选择高损失但可学习的数据批次，使得训练模型所需的计算量比基准方法少10倍。

JEST与Cappy方法有什么相似之处？

JEST与Cappy方法相似，都是使用预训练的小评分模型进行数据筛选。

JEST是如何提高数据批次质量的？

JEST通过计算子批次的联合可学习性，选择更高质量的数据批次，类似于困难负样本的概念。

DeepMind团队对JEST的实验结果如何？

实验表明，使用JEST训练的模型在相同性能下减少了10倍的训练FLOPS。

JEST算法的评分机制是怎样的？

JEST使用预训练模型在线计算数据批次的可学习性评分，以选择最有效的训练样本。

🏷️