小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了大语言模型在持续预训练中的学习动态,分析了通用性能与特定领域性能的演变,并提出了CPT缩放法则,为训练超参数优化提供新见解。

Learning Dynamics of Continuous Pre-training in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
通过自回归模型的适应扩展扩散语言模型

扩散语言模型(DLMs)旨在克服自回归模型的局限性。本文提出通过适应自回归模型构建文本扩散模型,展示了自回归与扩散建模目标之间的联系,并介绍了一种持续预训练方法。实验结果表明,转换后的模型在语言建模和推理基准上表现优异,超越了早期的DLMs,并与自回归模型竞争。

通过自回归模型的适应扩展扩散语言模型

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-16T00:00:00Z

我们开发了一种支持32,768个令牌的长上下文语言模型,通过持续预训练和长文本数据集构建。模型在语言和长上下文任务上表现出色,尤其在长上下文任务中超过了Llama 2和gpt-3.5-turbo-16k。研究发现,长上下文的持续预训练更为高效。

如何有效训练长上下文语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

本文研究了以持续预训练的方式构建新语言的大型语言模型,并通过40个模型规模的并行实验表明CPT能够快速收敛并节省计算资源。研究还发现CPT的计算最优数据-参数分配存在差异,通过数据重播可以减轻灾难性遗忘。希望这些发现能为规模化LLMs的可迁移性提供见解。

通过LFR教学法加速大型语言模型预训练:学习、聚焦与回顾

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

这篇研究论文提出了一种简单有效的方法,用于在新数据可用时持续预训练大型语言模型。通过结合学习率逐渐增加和逐渐减小以及周期性重播之前的数据等简单技术,研究人员能够在使用更少计算资源的情况下,与完全重新训练模型的性能相匹配。这些发现对于大型语言模型的实际部署具有重要意义,使其能够以可扩展和高效的方式保持最新状态。进一步研究语言模型的持续学习技术可能会导致更强大和适应性更强的人工智能系统。

使用更少计算资源持续预训练大型语言模型的简单策略

DEV Community
DEV Community · 2024-09-05T08:37:54Z

本文研究了以持续预训练(CPT)构建新语言的大型语言模型(LLMs),通过40个模型规模的并行实验表明CPT能够快速收敛并节省大量计算资源,为规模化LLMs的可迁移性提供深入见解。

Mix-CPT:一种通过解耦知识学习和格式对齐的领域自适应框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本研究探讨了电子商务领域持续预训练对大型语言模型的影响,并证明了其有效性。同时,提出了一种混合策略来更好地利用电子商务半结构化数据。

D-CPT 法:针对大型语言模型的领域专用持续预训练规模定律

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

本研究探讨了电子商务领域中持续预训练对大型语言模型的影响,并证明了其有效性。同时,提出了一种混合策略来更好地利用电子商务数据。

大型语言模型中的连续预训练探索:洞见与影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-27T00:00:00Z

本文介绍了一种名为稳定蒸馏的方法,用于持续预训练和提升目标领域自动语音识别(ASR)性能。该方法通过自蒸馏作为正则化方式,减轻了持续预训练中的过拟合问题。实验结果表明,稳定蒸馏在不同实验设置中胜过了所有基线方法,WER 提高了0.8-7个百分点。

FusDom: 结合领域内外知识进行持续自监督学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-20T00:00:00Z
通过微调和持续预训练,使用您自己的数据在 Amazon Bedrock 中自定义模型

Amazon Bedrock现在支持在私有和安全的环境中自定义基础模型,以构建特定于您的域、组织和用例的应用程序。微调和持续预训练可提高模型的准确性和适应性。使用Amazon Bedrock控制台或API可以创建自定义模型作业。

通过微调和持续预训练,使用您自己的数据在 Amazon Bedrock 中自定义模型

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2023-12-05T05:05:59Z

该文介绍了支持高达32,768个令牌的长上下文LLMs,通过持续预训练构建模型系列,在语言模型、合成上下文探索任务以及广泛的研究基准上取得了显著提升。作者对Llama的位置编码和预训练过程中的设计选择进行了深入分析,验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

CacheGen:面向语言模型应用的快速上下文加载

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码