小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Nvidia推出下一代Nemotron模型

Nvidia推出Nemotron 3系列AI模型,包括Nano、Super和Ultra,首次发布三万亿个预训练数据和1800万后训练样本。Nano模型现已可用,Super和Ultra预计2026年上半年发布。新模型采用专家混合技术,提升性能并降低成本,支持多种应用,开发者可通过开源和商业平台使用。

Nvidia推出下一代Nemotron模型

The New Stack
The New Stack · 2025-12-15T14:30:47Z
测试时重用预训练数据是计算增益的倍增器

本文探讨了重用预训练数据在测试中的有效性。研究表明,通过检索增强生成和测试时计算,模型在MMLU、Math-500和SimpleQA等任务上的准确性显著提高。在MMLU上,预训练结合检索的方式实现了约5倍的计算增益,进一步的测试时计算可提升10个百分点。这表明当前预训练方法未充分利用现有数据集的信息,仍有改进空间。

测试时重用预训练数据是计算增益的倍增器

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-12T00:00:00Z

中科院与阿里团队提出RefineX框架,通过程序化编辑精炼预训练数据,有效去除噪声并保留文本多样性,使模型在多项任务中的得分提高7.2%。该方法以最小干预剥离噪声,确保数据质量和可靠性。

手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里

量子位
量子位 · 2025-07-21T07:19:53Z
大规模无监督微调大型语言模型的规律

本文探讨了在目标领域微调语言模型时面临的挑战,如有限数据导致的过拟合和遗忘预训练分布。研究表明,混合1%的预训练数据可以有效防止遗忘并减轻过拟合现象。

大规模无监督微调大型语言模型的规律

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-20T00:00:00Z
No Need for Hundreds of GPUs! HKUST and Others Open Source LightGen: A Cost-Effective Text-to-Image Solution Comparable to SOTA Models

LightGen是一种新型高效图像生成模型,由香港科技大学和Everlyn AI团队开发,旨在有限数据和计算资源下生成高质量图像。通过知识蒸馏和直接偏好优化,LightGen显著降低了训练成本,性能接近或超越现有最先进模型。研究表明,使用约200万张图像作为预训练数据,LightGen在图像生成任务中表现优异,未来可扩展至其他生成任务。

No Need for Hundreds of GPUs! HKUST and Others Open Source LightGen: A Cost-Effective Text-to-Image Solution Comparable to SOTA Models

机器之心
机器之心 · 2025-03-19T02:33:14Z

本研究探讨了地球观测中复杂数据的不确定性感知,提出了一种评估框架,展示了预训练数据在多标签分类和分割任务中的强泛化能力,为未来研究提供新视角。

地球观测中表征不确定性的一般化研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
DeepSeek的MLA,任意大模型都能轻松迁移了

复旦NLP实验室的纪焘博士后研究了如何高效地将基于多头自注意力(MHA)的大语言模型迁移至多头潜在注意力(MLA)架构,提出了MHA2MLA框架。该框架通过部分RoPE保留和低秩近似,显著降低推理成本,仅需0.3%至0.6%的预训练数据,兼容现有技术,为资源高效的LLMs部署提供新路径。

DeepSeek的MLA,任意大模型都能轻松迁移了

机器之心
机器之心 · 2025-03-06T13:15:00Z
ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

AIxiv专栏探讨了大语言模型预训练数据选择的重要性,提出了数据管理器DataMan,通过14个质量维度对数据进行评分和领域识别。研究表明,使用DataMan筛选的数据显著提升模型性能,胜率最高达78.5%。

ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

机器之心
机器之心 · 2025-02-28T05:13:56Z

本研究探讨了大语言模型中数据预处理与缩放法则的关系,发现预训练数据和分词器显著影响损失-损失缩放趋势,强调选择合适的预训练数据集对训练的重要性。

大语言模型的关键:数据决定损失-损失缩放法则

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究探讨了多语言大语言模型在不同语言和任务中的提示翻译策略,评估了翻译质量和预训练数据规模对模型性能的影响,为选择最佳翻译策略提供了实用指南。

Beyond English: The Impact of Prompt Translation Strategies across Languages and Tasks in Multilingual Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z

本研究提出了一种有效的机器忘记算法,旨在解决法律问题中对训练数据来源的关注。该算法能够在不显著影响模型性能的情况下删除训练数据,并在微调后更易忘记特定任务的预训练数据。

Provable Unlearning in Topic Modeling and Downstream Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究通过未来事件预测评估大型语言模型(LLM),发现随着预训练数据的过时,LLM性能下降,强调了持续更新模型的重要性。

大型语言模型是否具有预见性?基于每日新闻的连续评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

本文探讨了预训练数据构成对小型语言模型性能的影响,发现复杂数据集(如古腾堡项目)能显著提升模型表现,而儿童导向数据集效果较差,强调了数据集构成与模型容量的重要性。

儿童模型应该阅读什么?探索数据构成对模型性能的样本效率影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z

本研究提出了一种基于庞特里亚金最大化原理的数据选择框架,旨在从大量语料中选择高质量的预训练数据。通过将问题形式化为广义最优控制问题,该框架加速了语言模型的学习,并提升了多项下游任务的表现。

通过最优控制进行语言模型的数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

研究发现,Transformer模型,特别是大型语言模型(LLMs),在无监督情况下能高效学习任务,但在超出预训练数据范围时表现不佳。模型的学习能力主要依赖于预训练数据的覆盖,而非归纳偏差。

分析大规模模型残差流中的稳定区域

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

研究发现,Transformer模型在上下文学习方面表现出近乎最优的能力,但在面对超出预训练数据领域的任务时,泛化能力会退化。研究结果强调了高容量序列模型的上下文学习能力与预训练数据组合的覆盖范围密切相关。

变压器是最小最大最优的非参数上下文学习耠

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

大型语言模型中的幻觉是指生成的不忠实、捏造、不一致或无意义的内容。幻觉问题分为上下文幻觉和外部幻觉。为避免幻觉,需要确保模型输出真实,并承认不知道答案。幻觉的原因包括预训练数据问题和微调新知识。幻觉检测方法有FactualityPrompt、FacTool和SelfCheckGPT。改进模型的方法有RAG、FLAME和Factuality tuning。

大型语言模型中的外部幻觉

Lil'Log
Lil'Log · 2024-07-07T00:00:00Z

本文研究了对齐微调对大型语言模型的影响,发现对齐微调过程对模型性能有负面影响,导致模型性能下降并恢复到预训练阶段的分布。模型的弹性与模型大小增加和预训练数据的扩展有正相关性,表明了驯化大型语言模型固有的弹性的重要性。

语言模型抗拒对准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-10T00:00:00Z

Meta发布了Llama 3系列的大型语言模型,包括8B和70B两个版本。Llama 3在推理、代码生成和指令跟踪方面具有改进的能力。Llama 3使用超过15T个预训练数据进行训练,比Llama 2大七倍。训练数据包括来自30多种语言的高质量非英语数据。Llama 3还引入了新的数据过滤流程以确保高质量的训练。模型使用并行化技术和先进的训练堆栈进行训练以提高效率。Llama 3还包括创新的指令微调方法。发布还附带了新的信任和安全工具,包括Llama Guard 2和Cybersec Eval 2。Llama 3将在主要平台上提供,以进行大规模部署。未来版本的Llama 3将包括多模态能力、多语言对话能力、更长的上下文窗口和更强大的整体性能。

一文速览Llama 3:从Llama 3的模型架构到如何把长度扩展到100万——基于NTK-aware插值

结构之法 算法之道
结构之法 算法之道 · 2024-04-19T02:45:36Z

研究探讨了Transformer模型在上下文中学习的能力,结果显示其在选择无监督模型和学习不同任务方面表现出优秀的能力。然而,当面对超出预训练数据领域的任务时,Transformer的泛化能力会退化。研究结果强调了高容量序列模型的上下文学习能力与预训练数据的覆盖范围相关。

多任务训练如何影响 Transformer 的上下文能力?对功能类别的研究调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码