小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了大语言模型在持续预训练中的学习动态,分析了通用性能与特定领域性能的演变,并提出了CPT缩放法则,为训练超参数优化提供新见解。

Learning Dynamics of Continuous Pre-training in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
通过自回归模型的适应扩展扩散语言模型

扩散语言模型(DLMs)旨在克服自回归模型的局限性。本文提出通过适应自回归模型构建文本扩散模型,展示了自回归与扩散建模目标之间的联系,并介绍了一种持续预训练方法。实验结果表明,转换后的模型在语言建模和推理基准上表现优异,超越了早期的DLMs,并与自回归模型竞争。

通过自回归模型的适应扩展扩散语言模型

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-16T00:00:00Z
通过持续预训练对数据集进行特征化并构建更好的模型

本文探讨了如何通过持续预训练(CPT)定制大型语言模型(LLM),通过在特定领域的大量文本上进一步训练预训练模型来增强领域知识。文章强调了学习率、训练时长和数据混合等超参数的重要性,并介绍了选择有效数据集以提高模型性能的方法。合理的超参数调整和数据混合能够显著提升小型LLM的表现,使其接近大型模型的水平。

通过持续预训练对数据集进行特征化并构建更好的模型

Databricks
Databricks · 2024-11-21T22:29:03Z

这篇研究论文提出了一种简单有效的方法,用于在新数据可用时持续预训练大型语言模型。通过结合学习率逐渐增加和逐渐减小以及周期性重播之前的数据等简单技术,研究人员能够在使用更少计算资源的情况下,与完全重新训练模型的性能相匹配。这些发现对于大型语言模型的实际部署具有重要意义,使其能够以可扩展和高效的方式保持最新状态。进一步研究语言模型的持续学习技术可能会导致更强大和适应性更强的人工智能系统。

使用更少计算资源持续预训练大型语言模型的简单策略

DEV Community
DEV Community · 2024-09-05T08:37:54Z

本文介绍了一系列支持高达32,768个令牌的长上下文语言模型(LLMs),通过持续预训练,这些模型在长文本任务上相较于Llama 2取得显著提升。研究表明,适当的数据混合和持续预训练策略能有效扩展上下文长度至128K,并在长上下文理解方面表现优异。实验结果显示,商业模型在短依赖任务上优于开源模型,但在长依赖任务上仍面临挑战。

扩容 Granite 代码模型至 128K 上下文

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

本研究探讨了电子商务领域中持续预训练对大型语言模型的影响,并证明了其有效性。同时,提出了一种混合策略来更好地利用电子商务数据。

大型语言模型中的连续预训练探索:洞见与影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-27T00:00:00Z

本文介绍了一种名为稳定蒸馏的方法,用于持续预训练和提升目标领域自动语音识别(ASR)性能。该方法通过自蒸馏作为正则化方式,减轻了持续预训练中的过拟合问题。实验结果表明,稳定蒸馏在不同实验设置中胜过了所有基线方法,WER 提高了0.8-7个百分点。

FusDom: 结合领域内外知识进行持续自监督学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-20T00:00:00Z
通过微调和持续预训练,使用您自己的数据在 Amazon Bedrock 中自定义模型

Amazon Bedrock现在支持在私有和安全的环境中自定义基础模型,以构建特定于您的域、组织和用例的应用程序。微调和持续预训练可提高模型的准确性和适应性。使用Amazon Bedrock控制台或API可以创建自定义模型作业。

通过微调和持续预训练,使用您自己的数据在 Amazon Bedrock 中自定义模型

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2023-12-05T05:05:59Z

该文介绍了支持高达32,768个令牌的长上下文LLMs,通过持续预训练构建模型系列,在语言模型、合成上下文探索任务以及广泛的研究基准上取得了显著提升。作者对Llama的位置编码和预训练过程中的设计选择进行了深入分析,验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

CacheGen:面向语言模型应用的快速上下文加载

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码