小红花·文摘

本文讨论了大规模模型训练中的并行化技术，特别是671B MoE模型的训练挑战。随着模型规模的增加，单卡显存不足以支持训练，因此需要采用数据并行、张量并行和流水线并行等多种策略。文章分析了显存消耗、通信成本及不同并行策略的优缺点，并强调了优化通信与计算重叠的重要性。最后，提出了针对不同规模模型的并行配置建议。

【大模型基础设施工程】06：3D 并行深度——数据 / 张量 / 流水 / 序列 / ZeRO

土法炼钢兴趣小组的博客 ·

最佳数据混合的缩放法则

Apple Machine Learning Research ·

本研究提出了一种新的混合专家模型框架，通过分段分配嵌入维度来提升计算效率，并提供了在特定架构下识别最佳专家数量的闭式表达式，为大规模模型设计提供指导。

理论上的变压器增强节段混合专家框架的最优扩展法则以提高效率

BriefGPT - AI 论文速递 ·

研究表明，训练的token数量越多，所需的精度越高，低精度量化可能失效。提出了“精度感知”Scaling Laws，强调在大规模模型的预训练和推理中需关注精度与性能的平衡。

今日最热论文：Scaling Law终结，量化也不管用，AI大佬齐刷刷附议

量子位 ·

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

机器之心 ·

Introducing UNA: A Unified Alignment Framework Integrating the Advantages of RLHF, DPO, and KTO

机器之心 ·

全球首个支持单任务千卡规模异构芯片混合训练平台，来自无问芯穹

机器之心 ·

2024 WAVE SUMMIT深度学习开发者大会将由国家深度学习技术及应用工程研究中心主办，百度飞桨和文心大模型协办。大会将邀请行业重量级嘉宾，如国家深度学习技术及应用工程研究中心主任、百度CTO王海峰，分享国内大规模模型在技术创新、行业应用和生态社区方面的最新进展，与数千名开发者交流。大会将包括一个主论坛、六个平行论坛、多个研讨会和一个展览区。

智能硬核生态共创！WAVE SUMMIT邀您共建飞桨硬件生态社区

百度大脑 ·

苹果与OpenAI合作推出“苹果智能”平台，增强AI能力。OpenAI以大规模模型应用于语言、图像和视频处理。谷歌在AI道德和命名多样性方面存在问题。Meta推出Llama模型和“Segment Anything”项目。微软整合AI能力到Azure等产品中。英伟达通过GPU销售占据市场优势。特斯拉利用数据训练自动驾驶模型并开发人型机器人Optimus。亚马逊和苹果也在AI领域发展。大型科技公司整合资源、转向产品化和整合AI技术推动AI发展。创业公司面临挑战但仍有机会创新。

苹果宣布整合ChatGPT！盘点硅谷大厂的AI策略

甜欣屋 ·

本文介绍了提升大规模模型在少样本学习中泛化能力的方法，包括CoPrompt、H-Prompts和Fed-CPrompt等。这些方法通过一致性约束、贝叶斯对齐和提示学习等技术，有效解决了灾难性遗忘问题，实验结果在多个基准测试中表现优异。

无插值复习的连续学习一致提示

BriefGPT - AI 论文速递 ·

该研究提出了一种名为元分布能量（MDE）的新度量方法，用于提高自动模型评估框架的效率和效果。MDE通过建立与个体样本相关的元分布统计信息，并利用基于能量的学习提供更平滑的表示。验证了MDE在多模态、不同数据集和不同架构背景下的有效性，并证明了与分类损失的理论联系。同时展示了MDE与大规模模型的无缝集成以及在具有噪声或不平衡标签的学习场景中的简便适应性。