小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

vivo与香港科技大学联合提出的PreSelect方法是一种高效的数据筛选技术,通过计算数据的预测强度来评估其对模型能力的贡献。该方法显著降低了计算成本,提升了数据筛选的效率和质量,实验结果表明其在多项任务中优于传统方法,验证了其有效性。

全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品

量子位
量子位 · 2025-05-16T04:27:31Z
在Power Automate中使用OData Lambda表达式对嵌套集合和相关表进行筛选

OData过滤器支持使用Lambda表达式筛选嵌套集合或相关表记录。通过指定嵌套表列名并使用any()或all(),可以灵活地进行数据过滤,例如根据电子邮件、联系人姓名或城市人口进行筛选,从而简化复杂查询。

在Power Automate中使用OData Lambda表达式对嵌套集合和相关表进行筛选

DEV Community
DEV Community · 2025-02-08T21:22:17Z

本文探讨了语言模型训练中的目标对齐技术,提出了Few Example学习以提高微调性能并减少样本需求。研究介绍了Gradient Vaccine优化多语言模型,强调梯度相似性的重要性。通过在线数据混合算法(ODM)和LongAlign框架,提升了长篇背景任务的处理能力。最后,提出了BiMix和LD-Align方法,优化数据筛选和对齐训练,以提高大型语言模型的训练效率和性能。

在线数据混合的动态梯度对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

LLMSafeGuard 是一个轻量级框架,通过集成外部验证器提升大型语言模型(LLM)的安全性,减少有毒输出和版权内容重复率。研究提出的数据筛选框架显著降低了有害响应的可能性。针对中文 LLM 的安全性评估显示区域特定风险普遍存在。此外,研究引入了 Guide-Align 方法,优化模型对多样输入的适应性,提升安全性和输出质量。

语言健康检测器在马来西亚语文本中的应用:在 LLM-Ops 框架中优化对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z
数据压缩语言模型(DataComp-LM):寻找下一代语言模型训练集

本文介绍了数据压缩语言模型(DCLM),通过标准化语料库和有效的预训练策略提升语言模型性能。DCLM提供了240T标记的数据集和53种下游评估,强调数据筛选在高质量训练集构建中的重要性。实验结果显示,DCLM-Baseline在MMLU上实现了64%的5-shot准确率,相较于之前的最佳模型提高了6.6个百分点,同时计算资源减少40%。

数据压缩语言模型(DataComp-LM):寻找下一代语言模型训练集

Apple Machine Learning Research
Apple Machine Learning Research · 2024-07-26T00:00:00Z

DeepMind团队提出了一种新的数据筛选方法JEST,可以将AI训练时间减少13倍,算力需求降低90%。该方法通过选择最佳数据批次进行训练,提高了训练效率和效果。研究结果显示,JEST大幅加速了大规模多模态预训练,迭代次数和浮点运算次数减少了10倍。新方法的运作过程是从一个更大的候选数据集中选择最佳的训练数据批次。团队成员进一步解释了多模态对比学习的过程和JEST的具体实现。该研究对于改变AI训练的游戏规则具有重要意义。

DeepMind新方法:训练时间减少13倍,算力降低90%

量子位
量子位 · 2024-07-10T05:53:44Z

本文探讨了利用经过过滤的网络数据训练大型语言模型的有效性,强调数据筛选的重要性。研究创建了包含1030万个网站创作者自我描述的数据集,并分析了不同质量和语言过滤器的影响。通过自动数据加工和知识蒸馏技术,模型在网页分类任务中的准确度显著提高。此外,提出了从网页数据中提取高质量中文文本的方法,并发布了大规模中文数据集,以支持语言模型研究。

AutoPureData: 网络数据的自动过滤用于 LLM 微调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

本研究构建了日本指令数据集,并应用于预训练模型,通过低秩调整提升模型在下游任务中的表现。研究探讨了文化知识在机器翻译中的应用,提出了新的数据筛选方法和提示策略,显著提高了翻译效果。此外,研究展示了人工指导数据在模型性能提升中的优势,并介绍了BioInstruct数据集以优化生物医学自然语言处理的性能。

CRAFT: 从野外提取和调整文化指引

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-06T00:00:00Z

该研究提出了一种基于不确定性感知的交通预测框架,能够量化不同来源的不确定性,并利用预测集的估计不确定性来筛选出足够包含信息内容的数据集。80%以上的交通数据可以被删除,剩余20%的样本对于训练模型具有相同的预测能力,证明了该方法在评估大型交通数据集的实际信息内容方面的价值。

提取环路检测数据集的信息本质:网络级交通预测需要更多数据吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

该研究提出了一种将伦理对齐与初始伦理判断阶段相结合的工作流程,用于高效的数据筛选。同时,提出了 QA-ETHICS 数据集和 MP-ETHICS 数据集,以评估多个伦理概念下的场景。研究还引入了一种新方法,在二进制和多标签伦理判断任务中取得了最佳性能。数据和代码可在链接中获得。

EALM:引入多维伦理对齐于对话式 信息检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-02T00:00:00Z

MetaCLIP是一种以数据筛选为核心的对比语言方法,在多个标准基准测试中优于CLIP。在零样本ImageNet分类中,MetaCLIP达到了70.8%的准确率,并在1B数据的情况下保持相同的训练预算达到了72.4%的准确率。

消除 CLIP 数据的神秘

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码