开源服务指南 ·

DeepSeek-V3 开源！高效混合专家语言模型 | 开源日报 No.563

💡 原文中文，约800字，阅读约需2分钟。

📝

内容提要

DeepSeek-V3 是一款强大的混合专家语言模型，拥有671B参数，采用多头潜在注意力架构，经过高效训练和微调，支持多令牌预测，性能优于其他开源模型。DecryptPrompt和Semantra等项目推动AIGC应用，提供丰富的资源和工具，适合各种用户。

🎯

关键要点

DeepSeek-V3 是一个强大的混合专家语言模型，具有 671B 的总参数量，每个令牌激活 37B 参数。
采用多头潜在注意力和 DeepSeekMoE 架构，实现高效推理和经济训练。
引入无辅助损失负载均衡策略，提升模型性能并稳定训练过程。
在 14.8 万亿多样化高质量令牌上进行预训练，并经过监督微调与强化学习阶段。
以仅需 2.788M H800 GPU 小时的成本完成全量训练，相比其他开源模型表现更优。
支持多令牌预测目标，加速推理并提高性能。
DecryptPrompt 是一个总结 Prompt 和大语言模型相关论文的开源项目，旨在促进 AIGC 应用的发展。
提供持续更新的 LLM 资源汇总，包括开源模型、评测榜单及推理框架。
提供多种微调与训练数据集，汇总各领域 AIGC 应用实例。
Semantra 是一个多功能的语义搜索工具，通过意义而非文本匹配进行查询。
支持分析本地计算机上的文本和 PDF 文件，启动本地网页应用程序以交互式查询文档。
databerry 是一个无代码平台，用于构建自定义的 LLM 代理，适合非技术用户。
openai-scf-proxy 是一个使用腾讯云函数快速搭建 OpenAI 免翻墙代理的项目。

🏷️

标签

AIGC DeepSeek-V3 deepseek 多头注意力开源语言模型资源

➡️

继续阅读

CCleaner 复刻版：3.57MB，开源清理工具 FluentCleaner Classic 发布
随着越来越多的 Windows 老用户对经典系统清理工具 CCleaner 的不满，比如广告、推荐、优化建议等，有开发者使用与 CCleaner 早期相同...
100%开源！吴恩达做了个个人桌面Agent
开源、隐私、本地优先、模型无关
Amazon EKS Adds Kubernetes Version Rollback Within 7 Days of an Upgrade
Amazon EKS has recently introduced support for Kubernetes version rollbacks, ...
3万小时触觉数据补齐具身智能“手感”！新智具身&复旦报告三连发
项目数据模型均开源
被智能体自主攻击后 🤗抱抱脸要求OpenAI公布全部细节且赔偿1亿美元计算资源
#人工智能 HF 抱抱脸首席执行官要求 OpenAI 赔偿 1 亿美元算力和公开 AI 智能体攻击的完整细节，不过目前 OpenAI 尚未发布回应。此前 ...
[关注] 谷歌工程师提议禁止安卓ADB本地连接 Shizuku等高级应用将受到严重影响
#系统资讯谷歌工程师提议限制安卓本机 ADB 连接，Shizuku 等多种高级工具可能会受影响，即这些工具的诸多功能可能会无法使用。注意：目前仅在提议阶...