小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
TiC-LM:一个用于时间连续大型语言模型预训练的网络规模基准

本文探讨了如何评估和更新大型语言模型(LLMs),以解决历史数据过时的问题。我们引入了基于114个Common Crawl数据集的时间连续预训练数据集,并设计了时间分层评估方法。研究表明,自回归元调度结合固定比例的旧数据重放,可以在计算上显著节省,同时保持与从头训练相当的效果。不同领域对新旧数据的平衡需求各不相同。

TiC-LM:一个用于时间连续大型语言模型预训练的网络规模基准

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z

本研究提出了CLIMB框架,解决了预训练数据集缺乏领域划分的问题。CLIMB能够自动发现和优化数据混合,训练的1亿模型在特定领域(如社会科学)上性能提升5%,超越了Llama-3.2-1B。

CLIMB: Clustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究探讨了变换器模型在分子属性预测中的局限性,特别是预训练数据集的规模和多样性对模型表现的影响。通过在少量相关分子上进行领域适应性再训练,显著提高了模型在ADME评估指标上的预测性能。

Transformers for Molecular Property Prediction: Domain Adaptation Effectively Improves Performance

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z

本研究探讨了CLIP框架下视觉语言模型的社会偏差与预训练特征及下游表现的关系。结果表明,预训练数据集是偏差的重要预测因素,而模型架构的影响较小。内在偏差与下游表现呈正相关,优化模型可能加剧偏差,为减少偏差提供了启示。

Intrinsic Bias Predicted by Pre-training Data and Its Relation to the Downstream Performance of Vision-Language Encoders

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
看破不可见数据集,自我监督学习成为细胞组学新的复杂系统处理利器

自我监督学习(SSL)通过分析输入与样本之间的关系,从未标记数据中提取有意义的表示,尤其在单细胞基因组学(SCG)中展现出潜力。德国研究团队探讨了SSL在SCG中的有效应用,发现掩蔽自动编码器优于对比学习,并且SSL在小数据集和未见数据集上表现更佳。这项研究为SCG中的SSL提供了实证基础,并强调了预训练数据集的重要性。

看破不可见数据集,自我监督学习成为细胞组学新的复杂系统处理利器

机器之心
机器之心 · 2025-01-21T11:11:04Z

本研究解决了3D医学视野自监督学习中的一致性和标准化问题,发布了包含114k个3D脑部MRI的预训练数据集,并对现有方法进行了基准测试,为该领域的发展奠定了基础。

Opening New Perspectives for Self-Supervised Learning in 3D Medical Imaging

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

本研究提出Qwen2.5系列模型,以解决大型语言模型在多样化需求上的不足。通过扩大预训练数据集和多阶段强化学习,显著提升了长文本生成、结构数据分析和指令遵循的能力。

Qwen2.5 Technical Report

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本研究提出了一种新方法,将公共爬虫数据集转化为高质量的长范围预训练数据集,通过分类器集成和合成数据重述显著提升模型准确性,支持更有效的长时间训练。

Nemotron-CC: 将公共爬虫数据集转变为精炼的长范围预训练数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z
最大的顶级数据集开源,HuggingFace排名第一,可创建15万亿Token

LLM360是Petuum与MBZUAI联合推出的开源大型语言模型项目,旨在提升开源代码的透明度。该项目发布了13个开源模型和一个名为TxT360的预训练数据集,包含超过15万亿个token,提供高质量、多样化的数据,帮助开发者更高效地创建大型语言模型。TxT360在Hugging Face上排名第一,具备丰富的元数据和详细的处理步骤,为LLM开发者提供了重要资源。

最大的顶级数据集开源,HuggingFace排名第一,可创建15万亿Token

OneFlow深度学习框架
OneFlow深度学习框架 · 2024-10-19T04:05:37Z

本文提出了一种基于分形图像的优化预训练数据集方法,能够在零成本下实现高分类准确性,避免隐私和偏见问题。实验结果表明,该方法在图像识别任务中的准确率可达92.7-98.1%。研究还探讨了合成数据生成和迁移学习的有效性,并提出了新框架以提升模型性能。

逆向缩放:最小合成预训练?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-01T00:00:00Z

本研究探讨了大型语言模型(LLMs)在命名实体识别(NER)任务中的应用,提出了NuNER模型,展示了其在少样本学习中的优势。研究表明,预训练数据集的规模和多样性对性能至关重要。结合小型微调模型和不确定性策略显著提升了NER任务的表现,实验结果显示LLMs在低资源学习中优于传统监督模型,推动了上下文学习的研究进展。

基于编码器的实体识别器与大型语言模型在提取俄语职位空缺技能方面的比较分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

本文探讨了自我监督学习(SSL)在医学图像分析中的应用,强调预训练数据集的多样性对下游任务性能的重要性。研究表明,适当的预训练策略能显著提高诊断准确性,尤其在有限标注数据情况下,SSL技术能有效减少对注释数据的需求,推动医学图像人工智能的发展。

探索自我监督学习中数据集多样性对于外科计算机视觉的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

本文介绍了针对印度语言的大规模预训练数据集和工具的开发,涵盖22种语言,旨在推动自然语言处理(NLP)研究。通过构建开源流水线和生成非有毒响应,研究为资源匮乏语言的模型建设提供了蓝图。iNLTK库和IndicXNLI数据集的推出,展示了在文本分类和跨语言转移技术中的优越表现,促进了印度语言的NLP研究进展。

印度 LLM 的预训练数据和分词工具

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z

MultiTabQA是一种新的多表问题回答模型,能够生成表格回答并在多表QA环境中表现优异。通过构建大规模预训练数据集和引入特定评估指标,该模型在三个数据集上进行微调,超越了最先进的单表QA模型。

Text2Analysis: 具有高级数据分析和不明确查询的表格问答基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-21T00:00:00Z

该研究介绍了自主学习在红外图像领域的应用,提供了一个大规模红外预训练数据集,并通过对象敏感的随机 RoI 裁剪方法和面向纹理缺失的图像预处理方法解决了传统方法在红外图像上的挑战。实验证明,该方法优于其他基线模型,仅使用了 1.23M 可预训练参数。

PAD:自监督预训练与红外图像的 Patchwise-Scale Adapter

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-13T00:00:00Z

SegRCDB是一种新型的用于语义分割的预训练数据集,基于公式驱动的监督学习,可以在没有真实图像或手动语义标签的情况下实现语义分割的预训练,为大规模数据集的创建和调查提供了可能性。

基于公式驱动的监督学习的语义分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-29T00:00:00Z

该研究比较了不同数据质量评估方法,发现困惑度方法效果最佳。研究提出了一种新方法,只需使用原始训练数据的30%即可改进基准模型。

通过准确度预测器修剪大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码