vivo与香港科技大学联合提出的PreSelect方法是一种高效的数据筛选技术,通过计算数据的预测强度来评估其对模型能力的贡献。该方法显著降低了计算成本,提升了数据筛选的效率和质量,实验结果表明其在多项任务中优于传统方法,验证了其有效性。
OData过滤器支持使用Lambda表达式筛选嵌套集合或相关表记录。通过指定嵌套表列名并使用any()或all(),可以灵活地进行数据过滤,例如根据电子邮件、联系人姓名或城市人口进行筛选,从而简化复杂查询。
本文探讨了语言模型训练中的目标对齐技术,提出了Few Example学习以提高微调性能并减少样本需求。研究介绍了Gradient Vaccine优化多语言模型,强调梯度相似性的重要性。通过在线数据混合算法(ODM)和LongAlign框架,提升了长篇背景任务的处理能力。最后,提出了BiMix和LD-Align方法,优化数据筛选和对齐训练,以提高大型语言模型的训练效率和性能。
LLMSafeGuard 是一个轻量级框架,通过集成外部验证器提升大型语言模型(LLM)的安全性,减少有毒输出和版权内容重复率。研究提出的数据筛选框架显著降低了有害响应的可能性。针对中文 LLM 的安全性评估显示区域特定风险普遍存在。此外,研究引入了 Guide-Align 方法,优化模型对多样输入的适应性,提升安全性和输出质量。
本文介绍了数据压缩语言模型(DCLM),通过标准化语料库和有效的预训练策略提升语言模型性能。DCLM提供了240T标记的数据集和53种下游评估,强调数据筛选在高质量训练集构建中的重要性。实验结果显示,DCLM-Baseline在MMLU上实现了64%的5-shot准确率,相较于之前的最佳模型提高了6.6个百分点,同时计算资源减少40%。
DeepMind团队提出了一种新的数据筛选方法JEST,可以将AI训练时间减少13倍,算力需求降低90%。该方法通过选择最佳数据批次进行训练,提高了训练效率和效果。研究结果显示,JEST大幅加速了大规模多模态预训练,迭代次数和浮点运算次数减少了10倍。新方法的运作过程是从一个更大的候选数据集中选择最佳的训练数据批次。团队成员进一步解释了多模态对比学习的过程和JEST的具体实现。该研究对于改变AI训练的游戏规则具有重要意义。
本文探讨了利用经过过滤的网络数据训练大型语言模型的有效性,强调数据筛选的重要性。研究创建了包含1030万个网站创作者自我描述的数据集,并分析了不同质量和语言过滤器的影响。通过自动数据加工和知识蒸馏技术,模型在网页分类任务中的准确度显著提高。此外,提出了从网页数据中提取高质量中文文本的方法,并发布了大规模中文数据集,以支持语言模型研究。
本研究构建了日本指令数据集,并应用于预训练模型,通过低秩调整提升模型在下游任务中的表现。研究探讨了文化知识在机器翻译中的应用,提出了新的数据筛选方法和提示策略,显著提高了翻译效果。此外,研究展示了人工指导数据在模型性能提升中的优势,并介绍了BioInstruct数据集以优化生物医学自然语言处理的性能。
该研究提出了一种基于不确定性感知的交通预测框架,能够量化不同来源的不确定性,并利用预测集的估计不确定性来筛选出足够包含信息内容的数据集。80%以上的交通数据可以被删除,剩余20%的样本对于训练模型具有相同的预测能力,证明了该方法在评估大型交通数据集的实际信息内容方面的价值。
该研究提出了一种将伦理对齐与初始伦理判断阶段相结合的工作流程,用于高效的数据筛选。同时,提出了 QA-ETHICS 数据集和 MP-ETHICS 数据集,以评估多个伦理概念下的场景。研究还引入了一种新方法,在二进制和多标签伦理判断任务中取得了最佳性能。数据和代码可在链接中获得。
MetaCLIP是一种以数据筛选为核心的对比语言方法,在多个标准基准测试中优于CLIP。在零样本ImageNet分类中,MetaCLIP达到了70.8%的准确率,并在1B数据的情况下保持相同的训练预算达到了72.4%的准确率。
完成下面两步后,将自动完成登录并继续当前操作。