DeepSeek-V3 开源!高效混合专家语言模型 | 开源日报 No.563

DeepSeek-V3 开源!高效混合专家语言模型 | 开源日报 No.563

💡 原文中文,约800字,阅读约需2分钟。
📝

内容提要

DeepSeek-V3 是一款强大的混合专家语言模型,拥有671B参数,采用多头潜在注意力架构,经过高效训练和微调,支持多令牌预测,性能优于其他开源模型。DecryptPrompt和Semantra等项目推动AIGC应用,提供丰富的资源和工具,适合各种用户。

🎯

关键要点

  • DeepSeek-V3 是一个强大的混合专家语言模型,具有 671B 的总参数量,每个令牌激活 37B 参数。
  • 采用多头潜在注意力和 DeepSeekMoE 架构,实现高效推理和经济训练。
  • 引入无辅助损失负载均衡策略,提升模型性能并稳定训练过程。
  • 在 14.8 万亿多样化高质量令牌上进行预训练,并经过监督微调与强化学习阶段。
  • 以仅需 2.788M H800 GPU 小时的成本完成全量训练,相比其他开源模型表现更优。
  • 支持多令牌预测目标,加速推理并提高性能。
  • DecryptPrompt 是一个总结 Prompt 和大语言模型相关论文的开源项目,旨在促进 AIGC 应用的发展。
  • 提供持续更新的 LLM 资源汇总,包括开源模型、评测榜单及推理框架。
  • 提供多种微调与训练数据集,汇总各领域 AIGC 应用实例。
  • Semantra 是一个多功能的语义搜索工具,通过意义而非文本匹配进行查询。
  • 支持分析本地计算机上的文本和 PDF 文件,启动本地网页应用程序以交互式查询文档。
  • databerry 是一个无代码平台,用于构建自定义的 LLM 代理,适合非技术用户。
  • openai-scf-proxy 是一个使用腾讯云函数快速搭建 OpenAI 免翻墙代理的项目。
➡️

继续阅读