小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
TiC-LM:一个用于时间连续大型语言模型预训练的网络规模基准

本文探讨了如何评估和更新大型语言模型(LLMs),以解决历史数据过时的问题。我们引入了基于114个Common Crawl数据集的时间连续预训练数据集,并设计了时间分层评估方法。研究表明,自回归元调度结合固定比例的旧数据重放,可以在计算上显著节省,同时保持与从头训练相当的效果。不同领域对新旧数据的平衡需求各不相同。

TiC-LM:一个用于时间连续大型语言模型预训练的网络规模基准

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z

本研究提出了CLIMB框架,解决了预训练数据集缺乏领域划分的问题。CLIMB能够自动发现和优化数据混合,训练的1亿模型在特定领域(如社会科学)上性能提升5%,超越了Llama-3.2-1B。

CLIMB: Clustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究探讨了CLIP框架下视觉语言模型的社会偏差与预训练特征及下游表现的关系。结果表明,预训练数据集是偏差的重要预测因素,而模型架构的影响较小。内在偏差与下游表现呈正相关,优化模型可能加剧偏差,为减少偏差提供了启示。

Intrinsic Bias Predicted by Pre-training Data and Its Relation to the Downstream Performance of Vision-Language Encoders

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
看破不可见数据集,自我监督学习成为细胞组学新的复杂系统处理利器

自我监督学习(SSL)通过分析输入与样本之间的关系,从未标记数据中提取有意义的表示,尤其在单细胞基因组学(SCG)中展现出潜力。德国研究团队探讨了SSL在SCG中的有效应用,发现掩蔽自动编码器优于对比学习,并且SSL在小数据集和未见数据集上表现更佳。这项研究为SCG中的SSL提供了实证基础,并强调了预训练数据集的重要性。

看破不可见数据集,自我监督学习成为细胞组学新的复杂系统处理利器

机器之心
机器之心 · 2025-01-21T11:11:04Z

本研究解决了3D医学视野自监督学习中的一致性和标准化问题,发布了包含114k个3D脑部MRI的预训练数据集,并对现有方法进行了基准测试,为该领域的发展奠定了基础。

为3D医学视野自监督学习开启新思路

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

本研究提出Qwen2.5系列模型,以解决大型语言模型在多样化需求上的不足。通过扩大预训练数据集和多阶段强化学习,显著提升了长文本生成、结构数据分析和指令遵循的能力。

Qwen2.5技术报告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

通过比较简单和复杂的数据质量评估方法,发现困惑度方法有效去除数据噪声和提升预训练数据集质量。只使用30%的原始训练数据即可改进基准模型,为自动筛选高质量数据集提供新方法。

通过困惑度相关性改善预训练数据

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本研究通过特定的科学论文质量指标优化预训练数据集,提高生物医学领域模型表现。使用期刊影响指标筛选数据不有效,但使用较少的摘要进行预训练不会显著降低模型性能,呈现新的预训练策略。

基于期刊影响指标的生物医学领域适应的预训练数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

本研究解决了大语言模型(LLM)在预训练数据集组成和选择上的不透明性问题,并通过开源普适数据处理流程验证其有效性。BaichuanSEED模型在处理了3T个token后,在多个基准测试中展现出与先进的商业大语言模型相当的表现。此工作为大语言模型的训练和应用提供了新的思路和数据处理方法。

BaichuanSEED:通过引入竞争性大语言模型基线共享广泛数据收集和去重的潜力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文介绍了MultiTabQA,一种新的多表问题回答模型,能够生成表格回答并在多表QA环境中表现优异。通过构建大规模预训练数据集,该模型在三个数据集上进行微调,取得了有效的训练结果。

MFORT-QA:多跳少样本开放丰富表格问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-28T00:00:00Z

MultiTabQA是一种新的多表问题回答模型,能够生成表格回答并在多表QA环境中表现优异。通过构建大规模预训练数据集和引入特定评估指标,该模型在三个数据集上进行微调,超越了最先进的单表QA模型。

Text2Analysis: 具有高级数据分析和不明确查询的表格问答基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-21T00:00:00Z

该研究介绍了自主学习在红外图像领域的应用,提供了一个大规模红外预训练数据集,并通过对象敏感的随机 RoI 裁剪方法和面向纹理缺失的图像预处理方法解决了传统方法在红外图像上的挑战。实验证明,该方法优于其他基线模型,仅使用了 1.23M 可预训练参数。

PAD:自监督预训练与红外图像的 Patchwise-Scale Adapter

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-13T00:00:00Z

SegRCDB是一种新型的用于语义分割的预训练数据集,基于公式驱动的监督学习,可以在没有真实图像或手动语义标签的情况下实现语义分割的预训练,为大规模数据集的创建和调查提供了可能性。

基于公式驱动的监督学习的语义分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-29T00:00:00Z

该研究比较了不同数据质量评估方法,发现困惑度方法效果最佳。研究提出了一种新方法,只需使用原始训练数据的30%即可改进基准模型。

通过准确度预测器修剪大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码