量子位 ·

谢赛宁团队突破高斯泼溅内存瓶颈，并行方案实现多显卡训练

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

谢赛宁团队和NYU系统实验室通过设计并行策略，推出了高斯泼溅模型的多卡训练方案，可以加速3.5倍以上。Grendel是他们提出的分布式训练系统，在大场景、高分辨率环境下突破了内存局限，生成了更多高斯，3D结果质量更高。Grendel采用混合粒度的并行策略，通过稀疏的全对全通信和动态负载均衡机制，实现了高斯泼溅模型的多卡训练。

🎯

关键要点

谢赛宁团队和NYU系统实验室突破高斯泼溅模型的内存瓶颈，推出多卡训练方案。
通过并行策略，在4张卡上训练可加速3.5倍，32卡可加速6.8倍。
Grendel是该团队提出的分布式训练系统，能够处理大场景和高分辨率环境下的渲染任务。
Grendel采用混合粒度的并行策略，结合稀疏全对全通信和动态负载均衡机制。
在Rubble和MatrixCity等复杂场景中，Grendel生成了高保真的渲染结果。
Grendel在Mip360和TT&DB数据集上实现了3-4倍的速度提升，且渲染质量几乎没有损失。
Grendel将高斯泼溅训练过程划分为高斯变换、渲染和损失计算三个主要阶段。
在不同阶段，Grendel采用不同的并行粒度以提高训练效率。
动态负载均衡机制帮助Grendel优化渲染时间，提升GPU利用率。
Grendel支持批量训练，动态调整学习率以保证训练稳定性和收敛性。

🏷️

继续阅读

你的数据正在喂养 AI：从 Atlassian 公告，看科技平台的数据训练默认政策
Atlassian 宣布默认使用用户数据训练 AI，引发行业关注。许多平台如 ChatGPT 和 GitHub Copilot 也采取类似政策，用户数据默...
消费级显卡可以快速上手跑！面壁智能MiniCPM-o 4.5发技术报告
面壁智能发布了MiniCPM-o 4.5，这是首个全双工全模态大模型，支持视频、音频和文本流输入，能够在个人电脑上运行，具备实时感知和主动交互能力，提升用...
DeepSeek-V4 技术解析：架构革新与 Coding Agent 后训练优化
DeepSeek-V4技术通过架构创新和后训练优化，显著提升了长上下文处理能力。其混合注意力机制和流形约束超连接提高了效率与稳定性。后训练阶段采用专家培养...
在线教程丨狂揽41k stars，港大团队开源超轻量AI助手nanobot，4000行代码实现OpenClaw核心功能
香港大学数据智能实验室开源了轻量级个人AI助手nanobot，代码量不足4000行，功能强大且易于开发。nanobot支持多种模型接口和工具调用，具备多会...
亚马逊云科技大幅扩展与OpenAI的合作伙伴关系
亚马逊云科技宣布与OpenAI扩大合作，推出最新的OpenAI模型和编程Agent Codex，支持企业软件开发。新产品通过Amazon Bedrock提...
在日常设备上实现隐私保护的人工智能训练
麻省理工学院的研究人员开发了一种新方法，提升了联邦学习的效率，使其在资源有限的设备上更快地训练人工智能模型。该方法通过减少内存需求和通信负担，加速训练过程...

谢赛宁团队突破高斯泼溅内存瓶颈，并行方案实现多显卡训练

内容提要

关键要点

标签

继续阅读