vivo与香港科技大学联合提出的PreSelect方法是一种高效的数据筛选技术,通过计算数据的预测强度来评估其对模型能力的贡献。该方法显著降低了计算成本,提升了数据筛选的效率和质量,实验结果表明其在多项任务中优于传统方法,验证了其有效性。
OData过滤器支持使用Lambda表达式筛选嵌套集合或相关表记录。通过指定嵌套表列名并使用any()或all(),可以灵活地进行数据过滤,例如根据电子邮件、联系人姓名或城市人口进行筛选,从而简化复杂查询。
本文探讨了语言模型训练中的目标对齐技术,提出了Few Example学习以提高微调性能并减少样本需求。研究介绍了Gradient Vaccine优化多语言模型,强调梯度相似性的重要性。通过在线数据混合算法(ODM)和LongAlign框架,提升了长篇背景任务的处理能力。最后,提出了BiMix和LD-Align方法,优化数据筛选和对齐训练,以提高大型语言模型的训练效率和性能。
DeepMind团队提出了一种新的数据筛选方法JEST,可以将AI训练时间减少13倍,算力需求降低90%。该方法通过选择最佳数据批次进行训练,提高了训练效率和效果。研究结果显示,JEST大幅加速了大规模多模态预训练,迭代次数和浮点运算次数减少了10倍。新方法的运作过程是从一个更大的候选数据集中选择最佳的训练数据批次。团队成员进一步解释了多模态对比学习的过程和JEST的具体实现。该研究对于改变AI训练的游戏规则具有重要意义。
该研究提出了一种基于不确定性感知的交通预测框架,能够量化不同来源的不确定性,并利用预测集的估计不确定性来筛选出足够包含信息内容的数据集。80%以上的交通数据可以被删除,剩余20%的样本对于训练模型具有相同的预测能力,证明了该方法在评估大型交通数据集的实际信息内容方面的价值。
该研究提出了一种将伦理对齐与初始伦理判断阶段相结合的工作流程,用于高效的数据筛选。同时,提出了 QA-ETHICS 数据集和 MP-ETHICS 数据集,以评估多个伦理概念下的场景。研究还引入了一种新方法,在二进制和多标签伦理判断任务中取得了最佳性能。数据和代码可在链接中获得。
MetaCLIP是一种以数据筛选为核心的对比语言方法,在多个标准基准测试中优于CLIP。在零样本ImageNet分类中,MetaCLIP达到了70.8%的准确率,并在1B数据的情况下保持相同的训练预算达到了72.4%的准确率。
完成下面两步后,将自动完成登录并继续当前操作。