小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
通过模仿模型权重评估样本效用以进行数据选择

本文提出了一种基于Mimic Score的新数据选择方法,旨在优化大规模网络数据集中的样本选择,以提高数据效率。该方法通过参考模型权重评估样本质量,并在六个图像数据集上实现了性能提升。

通过模仿模型权重评估样本效用以进行数据选择

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-23T00:00:00Z
OpenAI公开了GPT5降低幻觉的秘密,像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜,这才是真正的进步|GPT-5 AI Hallucination OpenAI Hallucinations

OpenAI的研究揭示了大语言模型产生幻觉的原因,包括评估体系和训练数据的问题。GPT-5通过鼓励模型承认“不知道”来减少幻觉,这类似于教育孩子的方式。有效的数据选择和逻辑训练对AI和儿童教育都至关重要。

OpenAI公开了GPT5降低幻觉的秘密,像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜,这才是真正的进步|GPT-5 AI Hallucination OpenAI Hallucinations

硕鼠的博客站
硕鼠的博客站 · 2025-09-10T00:41:00Z
当预训练数据与目标任务匹配时,语言模型性能提升

本文提出了一种基准目标排名方法(BETR),通过比较预训练文档与基准训练示例的相似性来优化数据选择。BETR在共享空间中嵌入基准示例和预训练文档,利用相似性评分训练轻量级分类器。研究表明,BETR在多个任务上显著提升性能,且更大的模型需要更少的过滤,强调数据选择策略需适应模型规模。

当预训练数据与目标任务匹配时,语言模型性能提升

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-18T00:00:00Z

本研究提出了一种高效的迭代数据选择框架LEAD,旨在降低计算开销。LEAD通过准确估计样本效用,消除额外的模型推理需求,从而显著提升模型性能并缩短训练时间。

LEAD: An Efficient Iterative Data Selection Framework for Instruction Tuning of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究提出了一种新方法ICon,克服了现有数据选择在指令调优中的局限性。实验结果表明,ICon选择的15%数据训练模型的性能超过使用全数据集,显示出其高效性和有效性。

基于上下文的贡献测量用于自动数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种数据选择策略,以提高大型语言模型在代码生成任务中的训练效率和效果。通过优化数据复杂性和Token化过程,显著提升了模型性能并减少了计算资源消耗。

Data-Efficient Fine-Tuning of LLMs for Code Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出MASS框架,旨在解决大型语言模型预训练中的数据选择问题。该框架通过数学推理技能图有效捕捉数学技能及其关系,实验结果显示显著提升了模型的训练效率和效果。

A Mathematical Data Selection Framework Using Skill Graphs for Pretraining Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本文探讨了在指令微调阶段选择预训练大型语言模型(LLMs)数据的方法,提出了一种新的多模态评分机制,以提升数据质量和多样性。研究表明,该方法在多个实验中比随机采样和现有方法更有效,显著提高了模型性能。

Essence: Harvesting Rich, Scalable, and Transferable Multi-Modal Data for Instruction Fine-Tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究提出了一种新原则,以优化大型语言模型的数据选择,减少噪声数据的影响。实验表明,仅使用10%的数据集,性能提升3%至8%,同时降低计算成本,展示了数据选择的潜力。

少即是多:通过偏好数据选择改善大型语言模型的对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出QLess方法,旨在解决大语言模型微调中因计算成本限制导致的数据选择效率问题。QLess结合梯度量化与LESS框架,通过两步压缩实现高效数据选择,实验结果表明其在数据估值质量上表现优异,且具备良好的可扩展性。

QLess: A Quantized Method for Data Valuation and Selection in Fine-Tuning Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究探讨了传统数据影响估计方法在现代训练中的有效性,特别是数据顺序的敏感性。提出了一种新的逐个剔除影响的方法,并引入数据价值嵌入技术。研究表明,训练初期和后期的数据点对模型有显著影响,为数据选择提供了新策略。

Capturing the Temporal Dependence of Training Data Influence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出了协作框架DataTailor,旨在解决视觉指令数据集扩展中的数据冗余和高计算成本问题。该框架通过信息量、独特性和代表性进行数据选择,实验表明仅使用15%的数据即可实现全数据微调性能的100.8%,有效降低计算成本。

Mastering Collaborative Multi-modal Data Selection: Focusing on Informativeness, Uniqueness, and Representativeness

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了一种重叠密度的数据中心机制,解决了对弱到强泛化现象的理解不足,显著提升了弱模型的性能,并为数据选择提供了指导。

Achieving Strong Generalization from Weak through the Perspective of Data Centers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
基本SQL查询

本文提供了12个SQL示例,涵盖基本数据选择、记录过滤、结果排序、限制结果、聚合函数、连接、子查询、计算列、去重、更新与删除数据、表的创建与操作,以及高级查询。每个示例均附有详细解释,以帮助理解SQL的基本用法和最佳实践。

基本SQL查询

DEV Community
DEV Community · 2024-12-02T22:36:25Z

本研究分析了多语言信息提取的局限性,并提出了零样本跨语言迁移学习的方法。通过探讨语言间的距离及其度量,优化数据选择,为构建更广泛的多语言信息提取系统奠定基础。

Zero-shot Cross-lingual Transfer Learning and Information Extraction with Multiple Source and Target Languages: Language Selection and Adversarial Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

本研究提出了一种梯度轨迹追踪(GTP)方法,显著提升了数据选择的效率和效果。实验结果表明,仅使用0.5%的数据量,仍能保证目标任务的性能,表现优异。

通过梯度轨迹追踪进行有影响力的语言数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

本文探讨了动态知识蒸馏的方法,分析了教师模型选择、数据选择和蒸馏目标调整的影响。实验结果表明,动态知识蒸馏具有良好前景,并提出了更有效的知识蒸馏方法,如GKD、MiniLLM和DistiLLM等,这些方法在复杂任务中表现优于传统方法,为未来研究指明了方向。

大型语言模型的预训练蒸馏:设计空间探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本文提出了一种名为可微分数据选择(DDS)的强化学习方法,通过优化数据选择来提升机器翻译和图像分类等任务的性能。研究引入了“预学习数据大小”概念,提出了基于PMP的数据选择框架(PDS),并强调在微调模型时选择高质量数据的重要性。实验结果表明,该方法在资源有限的情况下显著提高了模型性能。

计算约束下的数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

在机器学习中,数据选择比模型更重要。数据优化依赖于领域专家的理解,是AI项目成功的关键。数据策划需要领域和机器学习的专业知识,无法自动化或外包,并需深入讨论数据偏见。

数据策划是AI成功的真正支柱

DEV Community
DEV Community · 2024-10-17T22:10:07Z

本研究提出了一种新方法GraphFilter,将数据集表示为二分图,解决了现有方法只关注质量或多样性的问题。实验表明,GraphFilter在六个基准上优于所有基线方法,提升了模型性能和计算效率。

双重优势:通过二分图在数据选择中桥接质量与多样性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码