小红花·文摘

TiC-LM：一个用于时间连续大型语言模型预训练的网络规模基准

Apple Machine Learning Research ·

本研究提出了CLIMB框架，解决了预训练数据集缺乏领域划分的问题。CLIMB能够自动发现和优化数据混合，训练的1亿模型在特定领域（如社会科学）上性能提升5%，超越了Llama-3.2-1B。

CLIMB: Clustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

BriefGPT - AI 论文速递 ·

本研究探讨了变换器模型在分子属性预测中的局限性，特别是预训练数据集的规模和多样性对模型表现的影响。通过在少量相关分子上进行领域适应性再训练，显著提高了模型在ADME评估指标上的预测性能。

Transformers for Molecular Property Prediction: Domain Adaptation Effectively Improves Performance

BriefGPT - AI 论文速递 ·

本研究探讨了CLIP框架下视觉语言模型的社会偏差与预训练特征及下游表现的关系。结果表明，预训练数据集是偏差的重要预测因素，而模型架构的影响较小。内在偏差与下游表现呈正相关，优化模型可能加剧偏差，为减少偏差提供了启示。

Intrinsic Bias Predicted by Pre-training Data and Its Relation to the Downstream Performance of Vision-Language Encoders

BriefGPT - AI 论文速递 ·

看破不可见数据集，自我监督学习成为细胞组学新的复杂系统处理利器

机器之心 ·

本研究解决了3D医学视野自监督学习中的一致性和标准化问题，发布了包含114k个3D脑部MRI的预训练数据集，并对现有方法进行了基准测试，为该领域的发展奠定了基础。

Opening New Perspectives for Self-Supervised Learning in 3D Medical Imaging

BriefGPT - AI 论文速递 ·

本研究提出Qwen2.5系列模型，以解决大型语言模型在多样化需求上的不足。通过扩大预训练数据集和多阶段强化学习，显著提升了长文本生成、结构数据分析和指令遵循的能力。

Qwen2.5 Technical Report

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，将公共爬虫数据集转化为高质量的长范围预训练数据集，通过分类器集成和合成数据重述显著提升模型准确性，支持更有效的长时间训练。

Nemotron-CC: 将公共爬虫数据集转变为精炼的长范围预训练数据集

BriefGPT - AI 论文速递 ·

最大的顶级数据集开源，HuggingFace排名第一，可创建15万亿Token

OneFlow深度学习框架 ·

本文提出了一种基于分形图像的优化预训练数据集方法，能够在零成本下实现高分类准确性，避免隐私和偏见问题。实验结果表明，该方法在图像识别任务中的准确率可达92.7-98.1%。研究还探讨了合成数据生成和迁移学习的有效性，并提出了新框架以提升模型性能。

逆向缩放：最小合成预训练？

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在命名实体识别（NER）任务中的应用，提出了NuNER模型，展示了其在少样本学习中的优势。研究表明，预训练数据集的规模和多样性对性能至关重要。结合小型微调模型和不确定性策略显著提升了NER任务的表现，实验结果显示LLMs在低资源学习中优于传统监督模型，推动了上下文学习的研究进展。

基于编码器的实体识别器与大型语言模型在提取俄语职位空缺技能方面的比较分析

BriefGPT - AI 论文速递 ·

本文探讨了自我监督学习（SSL）在医学图像分析中的应用，强调预训练数据集的多样性对下游任务性能的重要性。研究表明，适当的预训练策略能显著提高诊断准确性，尤其在有限标注数据情况下，SSL技术能有效减少对注释数据的需求，推动医学图像人工智能的发展。

探索自我监督学习中数据集多样性对于外科计算机视觉的影响

BriefGPT - AI 论文速递 ·

本文介绍了针对印度语言的大规模预训练数据集和工具的开发，涵盖22种语言，旨在推动自然语言处理（NLP）研究。通过构建开源流水线和生成非有毒响应，研究为资源匮乏语言的模型建设提供了蓝图。iNLTK库和IndicXNLI数据集的推出，展示了在文本分类和跨语言转移技术中的优越表现，促进了印度语言的NLP研究进展。

印度 LLM 的预训练数据和分词工具

BriefGPT - AI 论文速递 ·

MultiTabQA是一种新的多表问题回答模型，能够生成表格回答并在多表QA环境中表现优异。通过构建大规模预训练数据集和引入特定评估指标，该模型在三个数据集上进行微调，超越了最先进的单表QA模型。

Text2Analysis: 具有高级数据分析和不明确查询的表格问答基准

BriefGPT - AI 论文速递 ·

该研究介绍了自主学习在红外图像领域的应用，提供了一个大规模红外预训练数据集，并通过对象敏感的随机 RoI 裁剪方法和面向纹理缺失的图像预处理方法解决了传统方法在红外图像上的挑战。实验证明，该方法优于其他基线模型，仅使用了 1.23M 可预训练参数。

PAD：自监督预训练与红外图像的 Patchwise-Scale Adapter

BriefGPT - AI 论文速递 ·

SegRCDB是一种新型的用于语义分割的预训练数据集，基于公式驱动的监督学习，可以在没有真实图像或手动语义标签的情况下实现语义分割的预训练，为大规模数据集的创建和调查提供了可能性。

基于公式驱动的监督学习的语义分割

BriefGPT - AI 论文速递 ·

该研究比较了不同数据质量评估方法，发现困惑度方法效果最佳。研究提出了一种新方法，只需使用原始训练数据的30%即可改进基准模型。

通过准确度预测器修剪大型语言模型

BriefGPT - AI 论文速递 ·