小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文讨论了大规模模型训练中的并行化技术,特别是671B MoE模型的训练挑战。随着模型规模的增加,单卡显存不足以支持训练,因此需要采用数据并行、张量并行和流水线并行等多种策略。文章分析了显存消耗、通信成本及不同并行策略的优缺点,并强调了优化通信与计算重叠的重要性。最后,提出了针对不同规模模型的并行配置建议。

【大模型基础设施工程】06:3D 并行深度——数据 / 张量 / 流水 / 序列 / ZeRO

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
最佳数据混合的缩放法则

本文提出了一种系统方法,通过缩放法则确定目标领域的最佳数据混合比例,以提升大规模模型的性能。该方法能够准确预测模型在特定领域权重下的损失,并在大型语言模型、多模态模型和视觉模型的预训练中验证其有效性。通过少量小规模训练,能够估计参数并推断更大规模的性能,提供了一种替代昂贵试错方法的方案。

最佳数据混合的缩放法则

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-26T00:00:00Z

本研究提出了一种新的混合专家模型框架,通过分段分配嵌入维度来提升计算效率,并提供了在特定架构下识别最佳专家数量的闭式表达式,为大规模模型设计提供指导。

理论上的变压器增强节段混合专家框架的最优扩展法则以提高效率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z

研究表明,训练的token数量越多,所需的精度越高,低精度量化可能失效。提出了“精度感知”Scaling Laws,强调在大规模模型的预训练和推理中需关注精度与性能的平衡。

今日最热论文:Scaling Law终结,量化也不管用,AI大佬齐刷刷附议

量子位
量子位 · 2024-11-13T07:22:12Z
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节跳动的豆包大模型团队提出了超连接(Hyper-Connections),作为残差连接的替代方案,有效解决了梯度消失和表示崩溃的问题。该方法在Dense和MoE模型的预训练中显著提升性能,收敛速度提高了80%。超连接通过动态调整连接权重,适用于大规模语言模型和视觉任务,具有广泛的应用前景。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

机器之心
机器之心 · 2024-11-07T06:36:29Z
Introducing UNA: A Unified Alignment Framework Integrating the Advantages of RLHF, DPO, and KTO

文章介绍了UNA方法,它统一了RLHF、DPO和KTO对齐技术。UNA通过通用隐式奖励函数简化训练流程,支持多种反馈数据,提升模型性能和稳定性。实验表明,UNA在任务表现、训练速度和内存占用方面优于传统方法,尤其在大规模模型处理上表现突出。

Introducing UNA: A Unified Alignment Framework Integrating the Advantages of RLHF, DPO, and KTO

机器之心
机器之心 · 2024-10-09T06:18:28Z
全球首个支持单任务千卡规模异构芯片混合训练平台,来自无问芯穹

无问芯穹发布了大规模模型的异构分布式混合训练系统,支持多种异构芯片的混合训练。无问芯穹的Infini-AI云平台已集成大模型异构混训能力,支持多种芯片的大模型训练。无问芯穹的技术产品能让开发者们能够有效利用各类算力资源,专注于AI应用创新。

全球首个支持单任务千卡规模异构芯片混合训练平台,来自无问芯穹

机器之心
机器之心 · 2024-07-06T02:47:56Z

2024 WAVE SUMMIT深度学习开发者大会将由国家深度学习技术及应用工程研究中心主办,百度飞桨和文心大模型协办。大会将邀请行业重量级嘉宾,如国家深度学习技术及应用工程研究中心主任、百度CTO王海峰,分享国内大规模模型在技术创新、行业应用和生态社区方面的最新进展,与数千名开发者交流。大会将包括一个主论坛、六个平行论坛、多个研讨会和一个展览区。

智能硬核 生态共创!WAVE SUMMIT邀您共建飞桨硬件生态社区

百度大脑
百度大脑 · 2024-06-21T11:36:39Z

苹果与OpenAI合作推出“苹果智能”平台,增强AI能力。OpenAI以大规模模型应用于语言、图像和视频处理。谷歌在AI道德和命名多样性方面存在问题。Meta推出Llama模型和“Segment Anything”项目。微软整合AI能力到Azure等产品中。英伟达通过GPU销售占据市场优势。特斯拉利用数据训练自动驾驶模型并开发人型机器人Optimus。亚马逊和苹果也在AI领域发展。大型科技公司整合资源、转向产品化和整合AI技术推动AI发展。创业公司面临挑战但仍有机会创新。

苹果宣布整合ChatGPT!盘点硅谷大厂的AI策略

甜欣屋
甜欣屋 · 2024-06-13T05:12:50Z

本文介绍了提升大规模模型在少样本学习中泛化能力的方法,包括CoPrompt、H-Prompts和Fed-CPrompt等。这些方法通过一致性约束、贝叶斯对齐和提示学习等技术,有效解决了灾难性遗忘问题,实验结果在多个基准测试中表现优异。

无插值复习的连续学习一致提示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-13T00:00:00Z

该研究提出了一种名为元分布能量(MDE)的新度量方法,用于提高自动模型评估框架的效率和效果。MDE通过建立与个体样本相关的元分布统计信息,并利用基于能量的学习提供更平滑的表示。验证了MDE在多模态、不同数据集和不同架构背景下的有效性,并证明了与分类损失的理论联系。同时展示了MDE与大规模模型的无缝集成以及在具有噪声或不平衡标签的学习场景中的简便适应性。

基于能量的自动模型评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-23T00:00:00Z

本文综合分析了基于图像的人物试穿领域,评估了不同方法并展示了大规模模型的未来潜力,同时揭示了未解决的问题和未来研究方向。

基于图像的虚拟试穿研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-08T00:00:00Z

专家在第六届中国国际进口博览会和虹桥国际经济论坛的一个分论坛上讨论了大规模模型技术及其在实体经济中的应用。百度副总裁吴甜分享了大规模模型如何提高各行业的效率和创造力。

大模型产业生态有“成功密码”?百度高管2023进博会最新发声

百度大脑
百度大脑 · 2023-11-07T11:58:44Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码