本文探讨了如何评估和更新大型语言模型(LLMs),以解决历史数据过时的问题。我们引入了基于114个Common Crawl数据集的时间连续预训练数据集,并设计了时间分层评估方法。研究表明,自回归元调度结合固定比例的旧数据重放,可以在计算上显著节省,同时保持与从头训练相当的效果。不同领域对新旧数据的平衡需求各不相同。
本研究提出了CLIMB框架,解决了预训练数据集缺乏领域划分的问题。CLIMB能够自动发现和优化数据混合,训练的1亿模型在特定领域(如社会科学)上性能提升5%,超越了Llama-3.2-1B。
本研究探讨了CLIP框架下视觉语言模型的社会偏差与预训练特征及下游表现的关系。结果表明,预训练数据集是偏差的重要预测因素,而模型架构的影响较小。内在偏差与下游表现呈正相关,优化模型可能加剧偏差,为减少偏差提供了启示。
自我监督学习(SSL)通过分析输入与样本之间的关系,从未标记数据中提取有意义的表示,尤其在单细胞基因组学(SCG)中展现出潜力。德国研究团队探讨了SSL在SCG中的有效应用,发现掩蔽自动编码器优于对比学习,并且SSL在小数据集和未见数据集上表现更佳。这项研究为SCG中的SSL提供了实证基础,并强调了预训练数据集的重要性。
本研究解决了3D医学视野自监督学习中的一致性和标准化问题,发布了包含114k个3D脑部MRI的预训练数据集,并对现有方法进行了基准测试,为该领域的发展奠定了基础。
本研究提出Qwen2.5系列模型,以解决大型语言模型在多样化需求上的不足。通过扩大预训练数据集和多阶段强化学习,显著提升了长文本生成、结构数据分析和指令遵循的能力。
通过比较简单和复杂的数据质量评估方法,发现困惑度方法有效去除数据噪声和提升预训练数据集质量。只使用30%的原始训练数据即可改进基准模型,为自动筛选高质量数据集提供新方法。
本研究通过特定的科学论文质量指标优化预训练数据集,提高生物医学领域模型表现。使用期刊影响指标筛选数据不有效,但使用较少的摘要进行预训练不会显著降低模型性能,呈现新的预训练策略。
本研究解决了大语言模型(LLM)在预训练数据集组成和选择上的不透明性问题,并通过开源普适数据处理流程验证其有效性。BaichuanSEED模型在处理了3T个token后,在多个基准测试中展现出与先进的商业大语言模型相当的表现。此工作为大语言模型的训练和应用提供了新的思路和数据处理方法。
本文介绍了MultiTabQA,一种新的多表问题回答模型,能够生成表格回答并在多表QA环境中表现优异。通过构建大规模预训练数据集,该模型在三个数据集上进行微调,取得了有效的训练结果。
MultiTabQA是一种新的多表问题回答模型,能够生成表格回答并在多表QA环境中表现优异。通过构建大规模预训练数据集和引入特定评估指标,该模型在三个数据集上进行微调,超越了最先进的单表QA模型。
该研究介绍了自主学习在红外图像领域的应用,提供了一个大规模红外预训练数据集,并通过对象敏感的随机 RoI 裁剪方法和面向纹理缺失的图像预处理方法解决了传统方法在红外图像上的挑战。实验证明,该方法优于其他基线模型,仅使用了 1.23M 可预训练参数。
SegRCDB是一种新型的用于语义分割的预训练数据集,基于公式驱动的监督学习,可以在没有真实图像或手动语义标签的情况下实现语义分割的预训练,为大规模数据集的创建和调查提供了可能性。
该研究比较了不同数据质量评估方法,发现困惑度方法效果最佳。研究提出了一种新方法,只需使用原始训练数据的30%即可改进基准模型。
完成下面两步后,将自动完成登录并继续当前操作。