PaddleFormers驱动：最少国产算力完成DeepSeek-V3（671B）全参数微调实践

百度大脑 ·

PaddleFormers驱动：最少国产算力完成DeepSeek-V3（671B）全参数微调实践

💡 原文中文，约5500字，阅读约需14分钟。

📝

内容提要

近期，基于PaddleFormers v1.0，在昆仑芯P800上成功完成DeepSeek-V3模型的全参数微调，验证了超大规模模型的可控性及优化训练效率。通过混合并行训练策略和多硬件算子验证工具，显著提升了算力利用效率，并总结了显存管理、长序列输入处理及负载均衡等关键技术，为未来大规模模型训练提供了参考。

🎯

关键要点

基于PaddleFormers v1.0，在128卡昆仑芯P800上成功完成DeepSeek-V3模型的全参数微调实验。
此次实践验证了超大规模模型在特定业务场景中的可控性与实际落地能力。
采用混合并行训练策略，整合多种并行训练技术，显著提升了算力利用效率。
引入PaddleAPITest多硬件算子验证工具，提升了适配效率和验证结果的准确性。
在大规模参数训练中，采用Offload技术解决显存问题，确保训练任务的持续运行。
引入Subbatch方法应对长序列输入训练中的显存挑战，有效节省显存空间。
合理引入负载均衡与优化技巧，确保MoE模型训练过程的稳定性与准确性。
本次实践为未来大规模模型训练技术的发展提供了有力的参考和借鉴。

❓

延伸问答

DeepSeek-V3模型的全参数微调实验使用了什么硬件？

实验使用了128卡昆仑芯P800硬件。

在DeepSeek-V3的微调过程中采用了哪些技术来提升算力利用效率？

采用了混合并行训练策略，整合了多种并行训练技术，如Sharding并行、流水线并行等。

如何解决大规模参数训练中的显存问题？

采用Offload技术，将部分优化器状态从显存转移到内存中，以确保训练任务的持续运行。

PaddleAPITest工具在实验中起到了什么作用？

PaddleAPITest工具确保模型在多硬件设备上达到理想的收敛状态，并提升了适配效率和验证结果的准确性。

在长序列输入训练中，如何应对显存挑战？

引入Subbatch方法，将长序列输入分割成多个子批次进行计算，有效节省显存空间。

本次实验对未来大规模模型训练有什么参考价值？

本次实践总结了显存管理、长序列输入处理及负载均衡等关键技术，为未来大规模模型训练提供了有力的参考和借鉴。

🏷️

继续阅读

Hugo 静态博客实现 Google AdSense 广告位懒加载：从原理到实践
本文介绍了如何通过懒加载技术优化Hugo博客中的广告位，解决广告过多导致页面加载缓慢的问题。使用HTML5的<template>标签和Inte...
英博数科亮相CCIG 2026，首次公开EBFlex私有化算力管理平台
2026年中国图象图形大会将在广州举行，重点关注图象图形与人工智能等前沿技术。英博数科展示了EBFlex私有化算力管理平台，旨在提升高校科研算力的供给与管...
构建新一代 AI Token 算力服务平台：KeyCompute 技术架构剖析
KeyCompute 是一个 AI Token 算力服务平台，旨在帮助中小企业和开发者管理多模型混用、账号池和计费等复杂链路。该平台使用 Rust 语言构...
早报｜曝苹果Vision Pro系列被砍/多地高考将查验智能眼镜/DeepSeek首轮融资规模约500亿元
苹果智能眼镜产品线调整，仅剩两款，Vision Pro系列被取消。DeepSeek计划融资500亿元，腾讯和宁德时代为主要投资者。高考将查验智能眼镜，考生...
网络设备曾经看起来像小型笔记本电脑，但现在它们变得更加个性化
近年来，网络设备（cyberdecks）向个性化发展，许多DIY爱好者在社交媒体上展示将计算机组件隐藏在手袋、玩具等物品中的创意。这些迷你Linux计算机...
Cursor降低价格并增加企业支出控制，迎接“代币经济”变革
本周AI编码领域发生了重要变化，GitHub的Copilot结束固定订阅模式，转向基于使用量的计费，引发用户强烈反响。Linux基金会成立Tokenomi...