量子位 ·

DeepMind新方法：训练时间减少13倍，算力降低90%

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

DeepMind团队提出了一种新的数据筛选方法JEST，可以将AI训练时间减少13倍，算力需求降低90%。该方法通过选择最佳数据批次进行训练，提高了训练效率和效果。研究结果显示，JEST大幅加速了大规模多模态预训练，迭代次数和浮点运算次数减少了10倍。新方法的运作过程是从一个更大的候选数据集中选择最佳的训练数据批次。团队成员进一步解释了多模态对比学习的过程和JEST的具体实现。该研究对于改变AI训练的游戏规则具有重要意义。

🎯

关键要点

DeepMind团队提出的新数据筛选方法JEST可以将AI训练时间减少13倍，算力需求降低90%。
JEST通过选择最佳数据批次进行训练，提高了训练效率和效果。
研究显示，JEST加速了大规模多模态预训练，迭代次数和浮点运算次数减少了10倍。
现有的数据筛选方法速度慢、成本高，限制了多模态学习的效率提升。
研究得出挑选好的数据批次比单独挑选数据点更为有效的结论。
JEST能够在仅使用10%的FLOP预算的情况下超越之前的最先进水平。
JEST选择那些对于预训练模型容易但对于当前学习模型较难的数据点，以提高训练效率。
多分辨率训练对于协调评分和学习者模型至关重要。
JEST++和FlexiJEST++的性能显著优于许多其他先前的SOTA模型，同时计算量更少。
研究发现JEST++可以简化数据管理流程，几乎不影响性能。

❓

延伸问答

JEST方法如何提高AI训练效率？

JEST通过选择最佳数据批次进行训练，显著提高了训练效率和效果。

JEST方法相比于传统数据筛选方法有什么优势？

JEST方法速度更快、成本更低，并且能有效提升多模态学习的效率。

使用JEST方法能减少多少训练时间和算力需求？

使用JEST方法可以将AI训练时间减少13倍，算力需求降低90%。

JEST方法的实现过程中有哪些关键因素？

关键因素包括选择好的数据批次、调整ADAM超参数和使用高质量参考数据集。

JEST++和FlexiJEST++与其他模型相比有什么优势？

JEST++和FlexiJEST++在性能上显著优于许多先前的SOTA模型，同时计算量更少。

JEST方法如何影响多模态学习的效率？

JEST通过有效选择数据批次，提升了多模态学习的效率，减少了迭代次数和计算量。

🏷️

继续阅读

NVIDIA研究解锁先进抓取技术、更智能的自动驾驶和大规模代理训练
NVIDIA的研究展示了通过大规模训练提升机器人抓取、自动驾驶和虚拟代理能力的突破。GraspGen-X模型适应不同抓手，LCDrive加速自动驾驶决策，...
浏览器指纹与反爬虫：TLS JA3、HTTP/2指纹原理及绕过方法
本文讨论了数据抓取中的反爬虫技术，重点介绍了浏览器指纹，包括TLS指纹和HTTP/2指纹。通过分析请求头、TLS握手和HTTP/2设置，服务器能够识别客户...
语音增强中的自监督学习：从无配对训练到基础模型先验
语音增强（SE）面临数据、目标和任务等挑战，自监督学习（SSL）逐渐成为解决方案。SSL通过未配对数据学习和生成式方法，重塑了SE的训练目标。研究表明，S...
微软发布Surface RTX SPARK开发工作站利用英伟达芯片提供本地AI算力
微软推出了 Microsoft Surface RTX SPARK 开发工作站，搭载英伟达芯片，支持本地运行 AI 模型。该工作站配备 20 核心 CPU...
《影之刃零》宣布延期50天发售，将抓住最后时间“再实现一次进化”
小跳不算跳。在刚刚举行的索尼State of Play发布会上，国产动作游戏《影之刃零》确认将在今年夏天内开启预售，并公开了一段特别先导预告：与此同时，《...
微软下一代量子芯片缩短了实用量子计算的时间线
微软推出的Majorana 2量子芯片在材料上进行了改进，量子计算的可靠性提高了1000倍，寿命超过20秒。该芯片用铅替代了铝超导体，并更新了半导体区域。...