小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
PaddleFormers驱动:最少国产算力完成DeepSeek-V3(671B)全参数微调实践

近期,基于PaddleFormers v1.0,在昆仑芯P800上成功完成DeepSeek-V3模型的全参数微调,验证了超大规模模型的可控性及优化训练效率。通过混合并行训练策略和多硬件算子验证工具,显著提升了算力利用效率,并总结了显存管理、长序列输入处理及负载均衡等关键技术,为未来大规模模型训练提供了参考。

PaddleFormers驱动:最少国产算力完成DeepSeek-V3(671B)全参数微调实践

百度大脑
百度大脑 · 2026-02-27T14:30:51Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1

机器之心
机器之心 · 2025-09-02T02:22:58Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

机器之心
机器之心 · 2025-08-24T11:59:50Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

普林斯顿团队领衔发布最强开源数学定理证明模型:32B性能大幅超越前代SOTA DeepSeek 671B

机器之心
机器之心 · 2025-07-17T05:14:35Z

DeepSeek推出的Prover-V2模型专注于数学定理证明,刷新多项基准测试记录。该7B模型成功解决了671B模型未能解决的问题,展现出独特的推理模式。Prover-V2结合强化学习与子目标分解,提升了形式化与非形式化证明的能力,标志着数学领域的重要进展。

DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能

量子位
量子位 · 2025-05-01T05:10:55Z
DeepSeek-671b-Q4部署

本文介绍了DeepSeek大模型的部署过程,包括硬件需求、驱动安装、基础环境配置、模型拉取及运行等步骤。强调显存和内存配置对模型性能的重要性,并提供了具体的命令和配置文件示例,同时讨论了可能遇到的性能问题及其解决方案。

DeepSeek-671b-Q4部署

elmagnifico
elmagnifico · 2025-04-17T16:00:00Z

字节推出的Seed-Thinking-v1.5模型以200B参数超越DeepSeek-R1的671B,提升了推理表现。通过优化数据和强化学习算法,该模型在数学和代码等任务中表现优异。尽管在某些基准测试中仍落后于o3-mini-high,但其潜力引发关注。

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

量子位
量子位 · 2025-04-11T05:52:37Z
7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?

香港大学与华为诺亚方舟实验室推出了扩散推理模型Dream 7B,突破了自回归与扩散模型在生成任务中的界限。该模型在通用能力、数学推理和编程任务上表现优异,展示了扩散建模在自然语言处理中的潜力。研究团队将发布模型权重,并将继续优化扩散语言模型。

7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?

机器之心
机器之心 · 2025-04-05T09:21:06Z
上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

上海财经大学团队发布了金融大语言模型Fin-R1,参数为7B,性能超越同规模模型,平均得分75.2,接近671B的DeepSeek-R1。该模型通过构建60k条高质量金融推理数据集,并结合指令微调和强化学习,提升了金融领域的推理能力,展现出卓越的适应能力。

上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

机器之心
机器之心 · 2025-03-26T08:44:40Z
DeepSeek-671B纯CPU部署经验分享(一)

私有化部署大模型可有效保护数据隐私,本文探讨DeepSeek大模型的纯CPU部署,成本约3.8万元,使用llama.cpp框架,q8精度下实现7.17 tokens/s的输出速度。通过散热改进和系统优化,长文本生成速度提升约25%。文章包括装机选型、软硬件配置和性能测试三部分,提供详细配置建议和测试结果。

DeepSeek-671B纯CPU部署经验分享(一)

腾讯安全玄武实验室
腾讯安全玄武实验室 · 2025-03-15T16:00:00Z

阿里巴巴通义千问团队开源了QwQ-32B模型,参数320亿,性能接近6710亿参数的DeepSeek-R1。该模型通过强化学习提升推理能力,支持批判性思考,尤其在数学推理和代码编写方面表现优异,已在Apache 2.0许可证下开源。

阿里通义千问团队开源QwQ-32B模型 规模更小但性能媲美DeepSeek-R1-671B

蓝点网
蓝点网 · 2025-03-06T03:11:28Z
鲶鱼效应搅翻AI江湖:DeepSeek 671B开源来袭,GPT-5和百度文心一言迎巨大挑战!

DeepSeek推出的671B开源模型显著改变了AI市场,尤其对B端用户影响深远。OpenAI因流量压力计划推出GPT-5并调整商业模式,提供免费功能吸引用户。百度文心一言也转向免费开源,面临广告收入挑战。未来AI盈利模式仍需探索。

鲶鱼效应搅翻AI江湖:DeepSeek 671B开源来袭,GPT-5和百度文心一言迎巨大挑战!

硕鼠的博客站
硕鼠的博客站 · 2025-02-18T00:46:01Z
免费!「DeepSeek-R1 671B满血版」不卡、不限次!问小白火速支援

问小白推出了DeepSeek-R1 671B满血版,强调不卡顿、零延迟和全免费。该App支持联网搜索和语音输入,提供快速、精准的搜索体验,用户可随时使用。

免费!「DeepSeek-R1 671B满血版」不卡、不限次!问小白火速支援

机器之心
机器之心 · 2025-02-14T02:16:26Z

通义灵码是阿里云与通义实验室合作开发的智能编码助手,支持200多种编程语言,兼容VS Code和JetBrains IDEs,具备智能补全、自然语言生成代码和智能问答等功能,帮助开发者高效编码。新模型选择功能允许用户根据需求切换模型,降低AI编程技术门槛。

如何在通义灵码里用上DeepSeek-V3 和 DeepSeek-R1 满血版671B模型?

蓝点网
蓝点网 · 2025-02-13T08:19:54Z

潞晨云推出“满血DeepSeek-671B-R1/V3解决方案”,提供免费通道、无代码使用和VIP通道,适合各类用户。支持联网搜索,提升回答准确性,企业级API价格低于官方,满足高性能需求。

免费!满血版DeepSeek丝滑畅玩,低门槛实现671B-R1/V3自由

量子位
量子位 · 2025-02-12T04:48:42Z

自DeepSeek R1发布以来,其强大性能引发广泛关注,导致官网服务器负担加重。为应对这一挑战,硅基流动与华为云联合推出基于昇腾云的DeepSeek R1 & V3推理服务,标志着国产GPU替代英伟达GPU的重要进展。此次合作有望改善国产GPU的适配性问题。

一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答:包括671B满血版和各个蒸馏版的部署(含单卡4090部署671B)

结构之法 算法之道
结构之法 算法之道 · 2025-02-03T07:29:02Z
完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!

AIxiv专栏促进学术交流,报道超过2000篇内容。DeepSeek R1模型通过动态量化技术实现本地部署,降低硬件要求。作者提供详细的部署步骤和测试结果,建议在消费级硬件上进行轻量任务。

完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!

机器之心
机器之心 · 2025-02-02T15:51:21Z

DeepSeek V3模型发布,参数量671B,训练成本仅557.6万美元,算力消耗为Llama 3的1/11。性能超越多款顶尖模型,生成速度提升3倍,API价格大幅降低,完全开源,支持FP8和BF16推理,受到广泛关注与测试。

国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

量子位
量子位 · 2024-12-27T04:46:27Z
国产大模型DeepSeek-V3一夜火爆全球,671B的MoE,训练成本仅558万美元

国产大模型DeepSeek-V3以671B参数和278.8万H800 GPU小时的训练成本,表现优异,超越多款开源模型。其MLA和DeepSeekMoE架构提升了推理效率,标志着分布式推理新时代的到来。

国产大模型DeepSeek-V3一夜火爆全球,671B的MoE,训练成本仅558万美元

机器之心
机器之心 · 2024-12-27T03:40:27Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码