小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
我们如何在DigitalOcean NVIDIA HGX™ B300 GPU Droplets上构建最具性能的DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B

DigitalOcean推出DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B,优化了硬件和软件,提升了推理速度和效率,满足现代AI应用的低延迟需求。

我们如何在DigitalOcean NVIDIA HGX™ B300 GPU Droplets上构建最具性能的DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B

The DigitalOcean Blog
The DigitalOcean Blog · 2026-04-28T09:00:00Z
DeepSeek-V4发布,华为云首发适配

华为云于4月24日发布并开源DeepSeek-V4模型,该模型支持百万Token超长上下文,提升了推理性能和经济性。新模型已被金山办公、360等企业接入,支持高效API服务,优化了调度和计算效率。

DeepSeek-V4发布,华为云首发适配

量子位
量子位 · 2026-04-24T10:10:16Z
最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

DeepSeek V4 发布,具备 1M 上下文和显著提升的代码能力,推理性能接近顶尖模型。新注意力机制降低计算需求,支持更多请求。V4 Pro 价格上涨,但在知识和推理任务上表现优异。现已上线官网和 API,无法自行部署。

最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

小众软件
小众软件 · 2026-04-24T04:05:20Z

PyTorch 2引入torch.export功能,允许将模型导出为静态图以优化推理性能。自定义操作可通过无状态的torch.ops或有状态的torch.classes定义。导出时需避免数据依赖形状和控制流,以确保模型可静态表示。导出的模型可在Python中保存和加载,但在C++中需使用AOTInductor或Executorch进行优化和编译,确保模型无图断裂是推理的关键。

PyTorch 导出

Lei Mao's Log Book
Lei Mao's Log Book · 2026-03-31T07:00:00Z
迎接高性能、低成本推理的新标准:NVIDIA Dynamo 1.0现已向DigitalOcean客户开放

NVIDIA Dynamo 1.0在GTC发布,现已为DigitalOcean客户提供,推理性能提升7倍,成本降低。结合DigitalOcean的Agentic Inference Cloud,客户可高效部署,优化推理工作负载,支持GPU集群,提升吞吐量和降低延迟。

迎接高性能、低成本推理的新标准:NVIDIA Dynamo 1.0现已向DigitalOcean客户开放

The DigitalOcean Blog
The DigitalOcean Blog · 2026-03-19T22:13:37Z
DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

Workato的AI研究实验室与DigitalOcean合作,利用NVIDIA Dynamo和vLLM优化推理性能。通过引入KV感知路由,显著提高了GPU的吞吐量和响应速度,分别提升67%和降低79%的延迟,从而降低了推理成本和所需GPU数量。

DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

The DigitalOcean Blog
The DigitalOcean Blog · 2026-03-03T04:55:00Z
英伟达宣布因内存供应紧张 其AI工作站DGX SPARK从3,999美元涨价到4,699美元

由于内存供应紧张,英伟达将迷你 AI 工作站 DGX SPARK 的价格从 3,999 美元上涨至 4,699 美元,涨幅达18%。该工作站支持本地运行200B参数模型,推理性能达到1petaFLOP。

英伟达宣布因内存供应紧张 其AI工作站DGX SPARK从3,999美元涨价到4,699美元

蓝点网
蓝点网 · 2026-03-02T00:30:31Z
在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

为解决多模型AI服务的闲置GPU成本问题,我们与vLLM社区合作开发了Multi-LoRA技术,允许多个模型共享同一GPU,优化MoE模型的推理性能。该技术通过保持原始权重不变,仅调整小型适配器,显著提升了输出速度并降低了延迟,适用于多个开源MoE模型,并已在Amazon SageMaker和Bedrock上实现。

在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

vLLM Blog
vLLM Blog · 2026-02-26T00:00:00Z

文章讨论了AI基础设施的最新动态,重点在于硬件加速和智能体记忆层的进展。ntransformer和Taalas ASIC优化了推理性能,Aethene和zclaw则提出了智能体记忆和边缘部署的新思路。企业AI正向规模化发展,推理成本成为关键挑战。

AI Infra Brief|硬件加速与智能体记忆层突破(2026.02.23)

dotNET跨平台
dotNET跨平台 · 2026-02-24T00:01:38Z

谷歌发布Gemini 3.1 Pro,推理性能是3 Pro的两倍,支持复杂任务生成3D可视化内容。该模型在多模态理解和长上下文方面有显著提升,用户反馈良好,定价与前代相同,智能成本持续下降,推动大模型发展。

谷歌突发Gemini 3.1 Pro!首次采用「.1」版本号,推理性能×2的那种

量子位
量子位 · 2026-02-20T01:25:54Z

讯飞星火X2大模型发布,推理性能提升50%,在数学和逻辑推理等核心能力上表现优异。该模型基于国产算力,支持多语言,广泛应用于医疗、教育和汽车等领域,推动行业升级,彰显国产AI实力。

神仙打架+1!讯飞星火X2硬核亮相,行业深度全面升级

量子位
量子位 · 2026-02-11T15:46:31Z

面壁智能推出的全模态大模型MiniCPM-o 4.5与众智FlagOS系统合作,实现对六大主流AI芯片的快速适配,推理性能显著优于原生方案。FlagOS提供高效的跨芯片软件栈,确保模型在多硬件上高效运行,推动AI技术广泛应用。

“一次开发,跨芯运行”:众智FlagOS与面壁智能联手,破解 AI大模型跨芯适配难题

量子位
量子位 · 2026-02-06T06:01:12Z

MIT研究团队提出递归语言模型RLM,解决大模型在处理超长文本时的上下文腐烂问题。RLM通过交互式Python环境动态拆解任务,实现千万级token处理能力,显著提升推理性能,无需修改模型架构。

真·开外挂!MIT新研究:架构0改动,让大模型解锁千万级上下文

量子位
量子位 · 2026-01-19T03:59:54Z
DeepSeek V3.2模型现已在Vercel AI Gateway上提供

DeepSeek推出V3.2和V3.2 Speciale模型,支持通过Vercel的AI Gateway访问。V3.2适合多种操作并支持工具使用,而V3.2 Speciale则优化了推理性能,但不支持工具使用。使用时需选择相应模型。

DeepSeek V3.2模型现已在Vercel AI Gateway上提供

Vercel News
Vercel News · 2025-12-01T13:00:00Z
FastDeploy 2.3:多模态模型推理加速30%+,原生支持文心多模态思考模型与PaddleOCR-VL!

FastDeploy 2.3是基于飞桨框架的高性能大模型推理部署套件,支持多种模型和硬件平台。此次更新优化了推理性能,新增ERNIE-4.5和PaddleOCR-VL模型支持,提升了跨硬件一致性和开发工具的易用性,用户可通过CLI工具简化部署流程,支持多模态推理。

FastDeploy 2.3:多模态模型推理加速30%+,原生支持文心多模态思考模型与PaddleOCR-VL!

百度大脑
百度大脑 · 2025-11-12T09:27:28Z
SemiAnalysis InferenceMAX:vLLM与NVIDIA加速Blackwell推理

与NVIDIA合作,优化Blackwell GPU架构以提升大语言模型的推理性能。通过重构和开发新内核,vLLM在Blackwell上实现了最高4倍的吞吐量提升,显著提高了推理效率。新基准测试显示,Blackwell在多种交互场景下表现优异,持续推动推理性能提升。

SemiAnalysis InferenceMAX:vLLM与NVIDIA加速Blackwell推理

vLLM Blog
vLLM Blog · 2025-10-09T00:00:00Z

Prefix Cache 是一种通过检测请求公共前缀来复用计算结果的缓存机制,旨在提升推理性能。使用 Radix Tree 构建缓存时,建议将不变部分放在前面。测试结果显示启用缓存后性能有所提升,但缓存命中率仍需进一步优化。

什么是 Prefix Cache

陈少文的博客
陈少文的博客 · 2025-09-11T00:00:00Z
AMD ROCm 追赶 NVIDIA CUDA:AI 芯片格局将变

AMD的ROCm平台在软件方面取得显著进展,缩小了与NVIDIA CUDA的差距。ROCm 7版本提升了AI推理性能,并计划在更多设备上支持该平台,进一步挑战NVIDIA的市场地位。专家预测,如果NVIDIA出现技术失误,AMD有望在AI芯片市场上颠覆其主导地位。

AMD ROCm 追赶 NVIDIA CUDA:AI 芯片格局将变

myfreax
myfreax · 2025-08-29T13:59:00Z
torch.compile 介绍及其与 vLLM 的工作原理

torch.compile 是 PyTorch 的即时编译器,旨在自动优化代码以提升大语言模型(LLM)的推理性能。它通过捕获张量操作生成优化内核,简化开发者的工作。vLLM 集成了 torch.compile,支持动态批量大小和自定义编译器传递,进一步提升性能。未来将改善稳定性和启动时间,推动推理性能的提升。

torch.compile 介绍及其与 vLLM 的工作原理

vLLM Blog
vLLM Blog · 2025-08-20T00:00:00Z

飞桨框架3.0推出了多硬件统一适配方案,降低了硬件适配成本,支持即插即用接入。该方案通过插件架构和标准接口,简化接入流程,提升模型训练和推理性能,降低开发门槛,促进硬件生态落地。

飞桨硬件接入方案升级,CUDA兼容类硬件后端Kernel复用可达92.6%

百度大脑
百度大脑 · 2025-08-15T12:25:39Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码