小红花·文摘 - 小红花技术领袖俱乐部

DeepSeek今日发布三项开源技术，旨在优化并行策略，包括DualPipe算法实现前后计算重叠、EPLB负载均衡确保GPU资源均衡，以及Profiling Data提供性能分析。发布后10分钟内，三项技术在GitHub上获得近300个星标，广受好评。

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

量子位 ·

KTransformers 一个新型的Transformers框架能够有效提高LLM的推理速度

KTransformers 一个新型的Transformers框架能够有效提高LLM的推理速度

编译程序 ·

大型语言模型在自然语言处理中取得突破，但其规模和计算需求带来挑战。本文探讨了数据并行、模型并行和流水线并行等策略，通过实验分析其对训练效率的影响。结果表明，优化并行策略能显著降低内存使用，提高计算效率，为大规模模型部署提供了重要见解。

探索大型语言模型中的并行策略

DEV Community ·

阿里云 TorchAcc是一个基于PyTorch/XLA的大模型分布式训练框架，提供多样化的并行策略和显存优化功能，通过图形优化和通信优化提高了分布式训练的效率和性能。该框架在多个模型的分布式训练场景中表现出显著的性能优势。

TorchAcc：基于 TorchXLA 的分布式训练框架

阿里云云栖号 ·