小红花·文摘

vivo与香港科技大学联合提出的PreSelect方法是一种高效的数据筛选技术，通过计算数据的预测强度来评估其对模型能力的贡献。该方法显著降低了计算成本，提升了数据筛选的效率和质量，实验结果表明其在多项任务中优于传统方法，验证了其有效性。

全新预训练数据筛选方案，让数据效率提升10倍！配置仅需fastText评分器｜港科大vivo出品

量子位 ·

在Power Automate中使用OData Lambda表达式对嵌套集合和相关表进行筛选

DEV Community ·

本文探讨了语言模型训练中的目标对齐技术，提出了Few Example学习以提高微调性能并减少样本需求。研究介绍了Gradient Vaccine优化多语言模型，强调梯度相似性的重要性。通过在线数据混合算法（ODM）和LongAlign框架，提升了长篇背景任务的处理能力。最后，提出了BiMix和LD-Align方法，优化数据筛选和对齐训练，以提高大型语言模型的训练效率和性能。

在线数据混合的动态梯度对齐

BriefGPT - AI 论文速递 ·

LLMSafeGuard 是一个轻量级框架，通过集成外部验证器提升大型语言模型（LLM）的安全性，减少有毒输出和版权内容重复率。研究提出的数据筛选框架显著降低了有害响应的可能性。针对中文 LLM 的安全性评估显示区域特定风险普遍存在。此外，研究引入了 Guide-Align 方法，优化模型对多样输入的适应性，提升安全性和输出质量。

语言健康检测器在马来西亚语文本中的应用：在 LLM-Ops 框架中优化对齐

BriefGPT - AI 论文速递 ·

数据压缩语言模型（DataComp-LM）：寻找下一代语言模型训练集

Apple Machine Learning Research ·

DeepMind团队提出了一种新的数据筛选方法JEST，可以将AI训练时间减少13倍，算力需求降低90%。该方法通过选择最佳数据批次进行训练，提高了训练效率和效果。研究结果显示，JEST大幅加速了大规模多模态预训练，迭代次数和浮点运算次数减少了10倍。新方法的运作过程是从一个更大的候选数据集中选择最佳的训练数据批次。团队成员进一步解释了多模态对比学习的过程和JEST的具体实现。该研究对于改变AI训练的游戏规则具有重要意义。

DeepMind新方法：训练时间减少13倍，算力降低90%

量子位 ·

本文探讨了利用经过过滤的网络数据训练大型语言模型的有效性，强调数据筛选的重要性。研究创建了包含1030万个网站创作者自我描述的数据集，并分析了不同质量和语言过滤器的影响。通过自动数据加工和知识蒸馏技术，模型在网页分类任务中的准确度显著提高。此外，提出了从网页数据中提取高质量中文文本的方法，并发布了大规模中文数据集，以支持语言模型研究。

AutoPureData: 网络数据的自动过滤用于 LLM 微调

BriefGPT - AI 论文速递 ·

本研究构建了日本指令数据集，并应用于预训练模型，通过低秩调整提升模型在下游任务中的表现。研究探讨了文化知识在机器翻译中的应用，提出了新的数据筛选方法和提示策略，显著提高了翻译效果。此外，研究展示了人工指导数据在模型性能提升中的优势，并介绍了BioInstruct数据集以优化生物医学自然语言处理的性能。