小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
通过模仿模型权重评估样本效用以进行数据选择

本文提出了一种基于Mimic Score的新数据选择方法,旨在优化大规模网络数据集中的样本选择,以提高数据效率。该方法通过参考模型权重评估样本质量,并在六个图像数据集上实现了性能提升。

通过模仿模型权重评估样本效用以进行数据选择

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-23T00:00:00Z
OpenAI公开了GPT5降低幻觉的秘密,像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜,这才是真正的进步|GPT-5 AI Hallucination OpenAI Hallucinations

OpenAI的研究揭示了大语言模型产生幻觉的原因,包括评估体系和训练数据的问题。GPT-5通过鼓励模型承认“不知道”来减少幻觉,这类似于教育孩子的方式。有效的数据选择和逻辑训练对AI和儿童教育都至关重要。

OpenAI公开了GPT5降低幻觉的秘密,像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜,这才是真正的进步|GPT-5 AI Hallucination OpenAI Hallucinations

硕鼠的博客站
硕鼠的博客站 · 2025-09-10T00:41:00Z
当预训练数据与目标任务匹配时,语言模型性能提升

本文提出了一种基准目标排名方法(BETR),通过比较预训练文档与基准训练示例的相似性来优化数据选择。BETR在共享空间中嵌入基准示例和预训练文档,利用相似性评分训练轻量级分类器。研究表明,BETR在多个任务上显著提升性能,且更大的模型需要更少的过滤,强调数据选择策略需适应模型规模。

当预训练数据与目标任务匹配时,语言模型性能提升

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-18T00:00:00Z

本研究提出了一种高效的迭代数据选择框架LEAD,旨在降低计算开销。LEAD通过准确估计样本效用,消除额外的模型推理需求,从而显著提升模型性能并缩短训练时间。

LEAD: An Efficient Iterative Data Selection Framework for Instruction Tuning of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究提出了一种新方法ICon,克服了现有数据选择在指令调优中的局限性。实验结果表明,ICon选择的15%数据训练模型的性能超过使用全数据集,显示出其高效性和有效性。

基于上下文的贡献测量用于自动数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种数据选择策略,以提高大型语言模型在代码生成任务中的训练效率和效果。通过优化数据复杂性和Token化过程,显著提升了模型性能并减少了计算资源消耗。

Data-Efficient Fine-Tuning of LLMs for Code Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出MASS框架,旨在解决大型语言模型预训练中的数据选择问题。该框架通过数学推理技能图有效捕捉数学技能及其关系,实验结果显示显著提升了模型的训练效率和效果。

A Mathematical Data Selection Framework Using Skill Graphs for Pretraining Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本文探讨了在指令微调阶段选择预训练大型语言模型(LLMs)数据的方法,提出了一种新的多模态评分机制,以提升数据质量和多样性。研究表明,该方法在多个实验中比随机采样和现有方法更有效,显著提高了模型性能。

Essence: Harvesting Rich, Scalable, and Transferable Multi-Modal Data for Instruction Fine-Tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究提出了一种新原则,以优化大型语言模型的数据选择,减少噪声数据的影响。实验表明,仅使用10%的数据集,性能提升3%至8%,同时降低计算成本,展示了数据选择的潜力。

少即是多:通过偏好数据选择改善大型语言模型的对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出PRISM方法,旨在解决多模态大型语言模型在视觉指令调优中的数据冗余和计算成本问题。通过皮尔逊相关分析选择高价值实例,提高数据选择效率,实验证明其在多个基准测试中优于传统方法,整体时间减少30%。

PRISM:无训练内在选择方法用于无训练多模态数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出QLess方法,旨在提高大语言模型微调中的数据选择效率。通过结合梯度量化与LESS框架,QLess在低内存使用下实现了优良的数据选择性能,实验结果表明其在数据估值质量上显著保留。

QLess: 一种用于大语言模型微调的数据估值与选择的量化方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究提出了一种新方法,解决了传统数据影响估计在现代训练中的有效性问题,特别是数据顺序的敏感性。研究发现,训练初期和后期的数据点对模型影响显著,从而为数据选择提供了新策略。

捕捉训练数据影响的时间依赖性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出了一种重叠密度的数据中心机制,解决了对弱到强泛化现象的理解不足,显著提升了弱模型的性能,并为数据选择提供了指导。

通过数据中心视角实现弱到强的泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
基本SQL查询

本文提供了12个SQL示例,涵盖基本数据选择、记录过滤、结果排序、限制结果、聚合函数、连接、子查询、计算列、去重、更新与删除数据、表的创建与操作,以及高级查询。每个示例均附有详细解释,以帮助理解SQL的基本用法和最佳实践。

基本SQL查询

DEV Community
DEV Community · 2024-12-02T22:36:25Z

本研究分析了多语言信息提取的局限性,探讨了语言距离及其度量,并优化了零样本多语言设置中的数据选择,为多语言信息提取系统奠定基础。

零样本跨语言迁移学习与信息提取的多源和目标语言:语言选择与对抗训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

本研究提出了一种梯度轨迹追踪(GTP)方法,显著提升了数据选择的效率和效果。实验结果表明,仅使用0.5%的数据量,仍能保证目标任务的性能,表现优异。

通过梯度轨迹追踪进行有影响力的语言数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

在机器学习中,数据选择比模型更重要。数据优化依赖于领域专家的理解,是AI项目成功的关键。数据策划需要领域和机器学习的专业知识,无法自动化或外包,并需深入讨论数据偏见。

数据策划是AI成功的真正支柱

DEV Community
DEV Community · 2024-10-17T22:10:07Z

本研究提出了一种新方法GraphFilter,将数据集表示为二分图,解决了现有方法只关注质量或多样性的问题。实验表明,GraphFilter在六个基准上优于所有基线方法,提升了模型性能和计算效率。

双重优势:通过二分图在数据选择中桥接质量与多样性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本研究提出了一种多智能体协作机制,用于提高大型语言模型预训练的数据选择效率。通过将不同数据选择方法作为独立智能体并动态整合信息,该方法显著提升数据效率,加速训练,并在多个基准测试中平均提升性能10.5%。

多智能体协作数据选择用于高效的大型语言模型预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究提出了一种基于庞特里亚金最大化原理的数据选择框架,旨在从大量语料中选择高质量的预训练数据。通过将问题形式化为广义最优控制问题,该框架加速了语言模型的学习,并提升了多项下游任务的表现。

通过最优控制进行语言模型的数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码