小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

机器之心数据服务现已上线,提供高效稳定的数据获取,简化爬取流程。

DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜

机器之心
机器之心 · 2025-08-27T12:52:49Z

DeepSeek-V3.1采用UE8MO FP8精度,显著提升AI模型训练效率,优化动态范围,降低显存和功耗,适应国产芯片需求,推动国产AI芯片技术进步。

DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块

dotNET跨平台
dotNET跨平台 · 2025-08-25T00:03:17Z

DeepSeek-V3.1采用UE8MO FP8参数精度,显著提升AI模型训练效率,降低显存占用,支持国产芯片发展,助力应对技术封锁。

DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块 - 张善友

张善友
张善友 · 2025-08-24T10:55:00Z
Deepseek V3.1 引爆A股!神秘代码 UE8M0 揭秘,华为升腾背后的“国运”豪赌

DeepSeek V3.1的发布引发市场关注,尽管性能提升不明显,但因UE8M0和FP8的参数精度适配国产芯片而受到重视。文章分析了UE8M0的计算精度演变及其对大模型的影响,强调国产算力芯片与国际技术的关系,并警示未来发展需谨慎。

Deepseek V3.1 引爆A股!神秘代码 UE8M0 揭秘,华为升腾背后的“国运”豪赌

硕鼠的博客站
硕鼠的博客站 · 2025-08-24T00:41:25Z

DeepSeek V3.1发布后,UE8M0 FP8概念推动国产芯片股价大涨,标志着国产AI向软硬协同发展。UE8M0 FP8通过优化数据处理提升芯片性能,减少对外部算力依赖,增强国产芯片竞争力。

DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥

量子位
量子位 · 2025-08-22T06:24:47Z

DeepSeek是一个国产大模型,采用FP8混合精度训练和MoE架构,显著降低了算力需求,但在医疗影像等任务中存在精度问题。其半开放式开源策略吸引了开发者,但对英伟达架构的依赖可能导致技术脆弱。整体而言,DeepSeek体现了中国AI的创新与挑战。

解剖DeepSeek四把刀,一场深到源码,大到行业,细到人心的手术盛宴

京东科技开发者
京东科技开发者 · 2025-06-03T08:54:32Z

本研究解决了深度搜索模型量化后的性能问题,评估了多位宽量化的效果。结果显示,4位量化与FP8相比性能下降极小,并提出了DQ3_K_M动态3位量化方法,优于传统方法。

Quantitative Analysis of Performance Degradation in Deep Search Model Quantization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

DeepSeek发布了开源矩阵乘法库DeepGEMM,专为英伟达Hopper GPU设计,支持FP8格式,提升AI训练效率。核心代码仅300行,简单易用,适用于多种AI架构,性能优于专家优化库。开发者可在GitHub获取代码。

DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率

蓝点网
蓝点网 · 2025-03-21T16:42:05Z
FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎

国产大模型推理引擎「赤兔」已开源,支持多种GPU和国产芯片,显著降低部署成本并提升速度,旨在解决大模型落地的技术瓶颈,推动国内AI生态发展。

FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎

机器之心
机器之心 · 2025-03-14T04:06:13Z
FP8训练新范式:减少40%显存占用,训练速度提高1.4倍

DeepSeek V3 通过 FP8 精度显著降低 GPU 内存和计算开销,提出 COAT 方法,优化内存利用率和训练速度,实现内存减少 1.54 倍,速度提升 1.43 倍,同时保持模型精度,支持大规模模型训练。

FP8训练新范式:减少40%显存占用,训练速度提高1.4倍

机器之心
机器之心 · 2025-03-07T02:30:28Z
关于DeepSeek我是怎么研究的(4)

DeepSeek-V3模型基于Transformer架构,采用MLA和DeepSeekMoE设计,优化了专家划分和负载均衡策略。使用FP8混合精度框架进行训练,提高了效率和性能。DeepSeek的开源特性使中小企业和学术机构能够以低成本使用大模型,推动AI领域发展。

关于DeepSeek我是怎么研究的(4)

Shadow Walker 松烟阁
Shadow Walker 松烟阁 · 2025-03-02T03:30:04Z
DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世

DeepGEMM 是一款开源的 FP8 GEMM 库,支持密集型和专家混合计算,在 Hopper GPU 上可实现超过 1350 TFLOPS 的性能。该库代码简洁,仅有 300 行,适合学习 FP8 矩阵乘法。DeepSeek 计划在 5 月前发布新一代 R2 模型,以提升代码生成能力。

DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世

机器之心
机器之心 · 2025-02-26T03:25:20Z
一文看懂 DeepSeek 开源项目第三弹,300 行代码揭示 V3/R1 推理效率背后的关键

DeepGEMM 是一个针对 FP8 通用矩阵乘法优化的库,支持普通和混合专家(MoE)分组 GEMM。它采用即时编译(JIT),无需预编译,能够根据设备动态调整代码,提高计算效率。DeepGEMM 设计简洁,核心代码约 300 行,特别适合现代 AI 计算,尤其在高效推理和低功耗场景中表现突出。

一文看懂 DeepSeek 开源项目第三弹,300 行代码揭示 V3/R1 推理效率背后的关键

爱范儿
爱范儿 · 2025-02-26T02:58:08Z

DeepSeek开源了DeepGEMM库,专注于高效FP8矩阵乘法,核心代码仅300行。在Hopper架构GPU上可达1350+TFLOPS性能,支持即时编译,简化使用,适用于深度学习的大规模模型训练,受到广泛关注。

DeepSeek开源第三弹:V3/R1训练推理关键秘籍,核心代码仅300行

量子位
量子位 · 2025-02-26T02:40:49Z

DeepSeek是一个国产大模型,采用FP8混合精度训练和MoE架构,显著降低算力需求,但在医疗影像等任务中存在精度问题。尽管吸引开发者,仍深度依赖英伟达架构,面临技术风险。这反映了中国AI发展的复杂性。

解剖DeepSeek四把刀,一场深到源码,大到行业,细到人心的手术盛宴

京东科技开发者
京东科技开发者 · 2025-02-17T08:56:43Z

DeepSeek V3将于2024年12月发布,凭借1/14的算力超越Llama 3.1 405B,采用多头潜在注意力和负载平衡策略,训练成本仅为558万美元,展现了国内AI领域的创新能力。

一文通透让Meta恐慌的DeepSeek-V3:在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)

结构之法 算法之道
结构之法 算法之道 · 2025-01-27T01:22:50Z
使用腾讯混元(HunYuanVideo)视频模型FP8量化版本来生成绅士动画,模型体积30G,8G甜品卡可玩,2秒视频需要15分钟

腾讯的HunYuanVideo视频模型因推理门槛高而受到限制,Kijai发布了FP8量化版本,使低端显卡用户也能使用。文章介绍了如何本地部署ComfyUI及相关模型,步骤包括克隆项目、安装依赖和下载模型,最终实现视频生成。

使用腾讯混元(HunYuanVideo)视频模型FP8量化版本来生成绅士动画,模型体积30G,8G甜品卡可玩,2秒视频需要15分钟

刘悦
刘悦 · 2024-12-08T00:00:00Z

本研究解决了现有 FP8 训练框架在内存使用优化方面的不足。通过动态范围扩展和混合粒度激活量化的创新方法,COAT 显著降低了大模型训练的内存占用,并在多项任务中实现了几乎无损的性能,提供了在较少 GPU 上高效训练大模型的解决方案。

COAT:优化器状态和激活的压缩以实现内存高效的 FP8 训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-25T00:00:00Z

Colossal-AI升级了混合精度训练,支持BF16和FP8方案,实现平均30%加速,降低成本并保证收敛性。FP8通过实时缩放提高效率,适合大模型硬件需求,多卡并行训练效果显著。支持多种并行方式,使用简单,无需额外编译。

一行代码训练成本再降30%,AI大模型混合精度训练再升级|开源

量子位
量子位 · 2024-09-25T10:07:03Z
使用FP8精度解锁万亿标记的大规模语言模型:战胜异常放大

研究论文探讨了使用8位浮点(FP8)格式训练大规模语言模型(LLMs)的挑战,提出了解决“异常放大”问题的技术。研究证明使用FP8格式可以成功训练万亿标记的LLMs,并保持模型性能,减少内存和计算需求,提高可扩展性。

使用FP8精度解锁万亿标记的大规模语言模型:战胜异常放大

DEV Community
DEV Community · 2024-09-21T10:42:26Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码