小红花·文摘

通过模仿模型权重评估样本效用以进行数据选择

Apple Machine Learning Research ·

OpenAI公开了GPT5降低幻觉的秘密，像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜，这才是真正的进步｜GPT-5 AI Hallucination OpenAI Hallucinations

硕鼠的博客站 ·

当预训练数据与目标任务匹配时，语言模型性能提升

Apple Machine Learning Research ·

本研究提出了一种高效的迭代数据选择框架LEAD，旨在降低计算开销。LEAD通过准确估计样本效用，消除额外的模型推理需求，从而显著提升模型性能并缩短训练时间。

LEAD: An Efficient Iterative Data Selection Framework for Instruction Tuning of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法ICon，克服了现有数据选择在指令调优中的局限性。实验结果表明，ICon选择的15%数据训练模型的性能超过使用全数据集，显示出其高效性和有效性。

基于上下文的贡献测量用于自动数据选择

BriefGPT - AI 论文速递 ·

本研究提出了一种数据选择策略，以提高大型语言模型在代码生成任务中的训练效率和效果。通过优化数据复杂性和Token化过程，显著提升了模型性能并减少了计算资源消耗。

Data-Efficient Fine-Tuning of LLMs for Code Generation

BriefGPT - AI 论文速递 ·

本研究提出MASS框架，旨在解决大型语言模型预训练中的数据选择问题。该框架通过数学推理技能图有效捕捉数学技能及其关系，实验结果显示显著提升了模型的训练效率和效果。

A Mathematical Data Selection Framework Using Skill Graphs for Pretraining Large Language Models

BriefGPT - AI 论文速递 ·

本文探讨了在指令微调阶段选择预训练大型语言模型（LLMs）数据的方法，提出了一种新的多模态评分机制，以提升数据质量和多样性。研究表明，该方法在多个实验中比随机采样和现有方法更有效，显著提高了模型性能。

Essence: Harvesting Rich, Scalable, and Transferable Multi-Modal Data for Instruction Fine-Tuning

BriefGPT - AI 论文速递 ·

本研究提出了一种新原则，以优化大型语言模型的数据选择，减少噪声数据的影响。实验表明，仅使用10%的数据集，性能提升3%至8%，同时降低计算成本，展示了数据选择的潜力。

少即是多：通过偏好数据选择改善大型语言模型的对齐

BriefGPT - AI 论文速递 ·

本研究提出QLess方法，旨在解决大语言模型微调中因计算成本限制导致的数据选择效率问题。QLess结合梯度量化与LESS框架，通过两步压缩实现高效数据选择，实验结果表明其在数据估值质量上表现优异，且具备良好的可扩展性。

QLess: A Quantized Method for Data Valuation and Selection in Fine-Tuning Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了传统数据影响估计方法在现代训练中的有效性，特别是数据顺序的敏感性。提出了一种新的逐个剔除影响的方法，并引入数据价值嵌入技术。研究表明，训练初期和后期的数据点对模型有显著影响，为数据选择提供了新策略。

Capturing the Temporal Dependence of Training Data Influence

BriefGPT - AI 论文速递 ·

本研究提出了协作框架DataTailor，旨在解决视觉指令数据集扩展中的数据冗余和高计算成本问题。该框架通过信息量、独特性和代表性进行数据选择，实验表明仅使用15%的数据即可实现全数据微调性能的100.8%，有效降低计算成本。

Mastering Collaborative Multi-modal Data Selection: Focusing on Informativeness, Uniqueness, and Representativeness

BriefGPT - AI 论文速递 ·

本研究提出了一种重叠密度的数据中心机制，解决了对弱到强泛化现象的理解不足，显著提升了弱模型的性能，并为数据选择提供了指导。

Achieving Strong Generalization from Weak through the Perspective of Data Centers

BriefGPT - AI 论文速递 ·

基本SQL查询

DEV Community ·

本研究分析了多语言信息提取的局限性，并提出了零样本跨语言迁移学习的方法。通过探讨语言间的距离及其度量，优化数据选择，为构建更广泛的多语言信息提取系统奠定基础。

Zero-shot Cross-lingual Transfer Learning and Information Extraction with Multiple Source and Target Languages: Language Selection and Adversarial Training

BriefGPT - AI 论文速递 ·

本研究提出了一种梯度轨迹追踪（GTP）方法，显著提升了数据选择的效率和效果。实验结果表明，仅使用0.5%的数据量，仍能保证目标任务的性能，表现优异。

通过模仿模型权重评估样本效用以进行数据选择

OpenAI公开了GPT5降低幻觉的秘密，像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜，这才是真正的进步｜GPT-5 AI Hallucination OpenAI Hallucinations

当预训练数据与目标任务匹配时，语言模型性能提升

LEAD: An Efficient Iterative Data Selection Framework for Instruction Tuning of Large Language Models

基于上下文的贡献测量用于自动数据选择

Data-Efficient Fine-Tuning of LLMs for Code Generation

A Mathematical Data Selection Framework Using Skill Graphs for Pretraining Large Language Models

Essence: Harvesting Rich, Scalable, and Transferable Multi-Modal Data for Instruction Fine-Tuning

少即是多：通过偏好数据选择改善大型语言模型的对齐

QLess: A Quantized Method for Data Valuation and Selection in Fine-Tuning Large Language Models

Capturing the Temporal Dependence of Training Data Influence

Mastering Collaborative Multi-modal Data Selection: Focusing on Informativeness, Uniqueness, and Representativeness

Achieving Strong Generalization from Weak through the Perspective of Data Centers

基本SQL查询

Zero-shot Cross-lingual Transfer Learning and Information Extraction with Multiple Source and Target Languages: Language Selection and Adversarial Training

通过梯度轨迹追踪进行有影响力的语言数据选择

大型语言模型的预训练蒸馏：设计空间探索

计算约束下的数据选择

数据策划是AI成功的真正支柱

双重优势：通过二分图在数据选择中桥接质量与多样性