小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
我们如何在DigitalOcean NVIDIA HGX™ B300 GPU Droplets上构建最具性能的DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B

DigitalOcean推出DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B,优化了硬件和软件,提升了推理速度和效率,满足现代AI应用的低延迟需求。

我们如何在DigitalOcean NVIDIA HGX™ B300 GPU Droplets上构建最具性能的DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B

The DigitalOcean Blog
The DigitalOcean Blog · 2026-04-28T09:00:00Z
DeepSeek-V4发布,华为云首发适配

华为云于4月24日发布并开源DeepSeek-V4模型,该模型支持百万Token超长上下文,提升了推理性能和经济性。新模型已被金山办公、360等企业接入,支持高效API服务,优化了调度和计算效率。

DeepSeek-V4发布,华为云首发适配

量子位
量子位 · 2026-04-24T10:10:16Z
最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

DeepSeek V4 发布,具备 1M 上下文和显著提升的代码能力,推理性能接近顶尖模型。新注意力机制降低计算需求,支持更多请求。V4 Pro 价格上涨,但在知识和推理任务上表现优异。现已上线官网和 API,无法自行部署。

最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

小众软件
小众软件 · 2026-04-24T04:05:20Z

PyTorch 2引入torch.export功能,允许将模型导出为静态图以优化推理性能。自定义操作可通过无状态的torch.ops或有状态的torch.classes定义。导出时需避免数据依赖形状和控制流,以确保模型可静态表示。导出的模型可在Python中保存和加载,但在C++中需使用AOTInductor或Executorch进行优化和编译,确保模型无图断裂是推理的关键。

PyTorch 导出

Lei Mao's Log Book
Lei Mao's Log Book · 2026-03-31T07:00:00Z
迎接高性能、低成本推理的新标准:NVIDIA Dynamo 1.0现已向DigitalOcean客户开放

NVIDIA Dynamo 1.0在GTC发布,现已为DigitalOcean客户提供,推理性能提升7倍,成本降低。结合DigitalOcean的Agentic Inference Cloud,客户可高效部署,优化推理工作负载,支持GPU集群,提升吞吐量和降低延迟。

迎接高性能、低成本推理的新标准:NVIDIA Dynamo 1.0现已向DigitalOcean客户开放

The DigitalOcean Blog
The DigitalOcean Blog · 2026-03-19T22:13:37Z
DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

Workato的AI研究实验室与DigitalOcean合作,利用NVIDIA Dynamo和vLLM优化推理性能。通过引入KV感知路由,显著提高了GPU的吞吐量和响应速度,分别提升67%和降低79%的延迟,从而降低了推理成本和所需GPU数量。

DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

The DigitalOcean Blog
The DigitalOcean Blog · 2026-03-03T04:55:00Z
英伟达宣布因内存供应紧张 其AI工作站DGX SPARK从3,999美元涨价到4,699美元

由于内存供应紧张,英伟达将迷你 AI 工作站 DGX SPARK 的价格从 3,999 美元上涨至 4,699 美元,涨幅达18%。该工作站支持本地运行200B参数模型,推理性能达到1petaFLOP。

英伟达宣布因内存供应紧张 其AI工作站DGX SPARK从3,999美元涨价到4,699美元

蓝点网
蓝点网 · 2026-03-02T00:30:31Z
在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

为解决多模型AI服务的闲置GPU成本问题,我们与vLLM社区合作开发了Multi-LoRA技术,允许多个模型共享同一GPU,优化MoE模型的推理性能。该技术通过保持原始权重不变,仅调整小型适配器,显著提升了输出速度并降低了延迟,适用于多个开源MoE模型,并已在Amazon SageMaker和Bedrock上实现。

在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

vLLM Blog
vLLM Blog · 2026-02-26T00:00:00Z

文章讨论了AI基础设施的最新动态,重点在于硬件加速和智能体记忆层的进展。ntransformer和Taalas ASIC优化了推理性能,Aethene和zclaw则提出了智能体记忆和边缘部署的新思路。企业AI正向规模化发展,推理成本成为关键挑战。

AI Infra Brief|硬件加速与智能体记忆层突破(2026.02.23)

dotNET跨平台
dotNET跨平台 · 2026-02-24T00:01:38Z

谷歌发布Gemini 3.1 Pro,推理性能是3 Pro的两倍,支持复杂任务生成3D可视化内容。该模型在多模态理解和长上下文方面有显著提升,用户反馈良好,定价与前代相同,智能成本持续下降,推动大模型发展。

谷歌突发Gemini 3.1 Pro!首次采用「.1」版本号,推理性能×2的那种

量子位
量子位 · 2026-02-20T01:25:54Z

讯飞星火X2大模型发布,推理性能提升50%,在数学和逻辑推理等核心能力上表现优异。该模型基于国产算力,支持多语言,广泛应用于医疗、教育和汽车等领域,推动行业升级,彰显国产AI实力。

神仙打架+1!讯飞星火X2硬核亮相,行业深度全面升级

量子位
量子位 · 2026-02-11T15:46:31Z

面壁智能推出的全模态大模型MiniCPM-o 4.5与众智FlagOS系统合作,实现对六大主流AI芯片的快速适配,推理性能显著优于原生方案。FlagOS提供高效的跨芯片软件栈,确保模型在多硬件上高效运行,推动AI技术广泛应用。

“一次开发,跨芯运行”:众智FlagOS与面壁智能联手,破解 AI大模型跨芯适配难题

量子位
量子位 · 2026-02-06T06:01:12Z

MIT研究团队提出递归语言模型RLM,解决大模型在处理超长文本时的上下文腐烂问题。RLM通过交互式Python环境动态拆解任务,实现千万级token处理能力,显著提升推理性能,无需修改模型架构。

真·开外挂!MIT新研究:架构0改动,让大模型解锁千万级上下文

量子位
量子位 · 2026-01-19T03:59:54Z
DeepSeek V3.2模型现已在Vercel AI Gateway上提供

DeepSeek推出V3.2和V3.2 Speciale模型,支持通过Vercel的AI Gateway访问。V3.2适合多种操作并支持工具使用,而V3.2 Speciale则优化了推理性能,但不支持工具使用。使用时需选择相应模型。

DeepSeek V3.2模型现已在Vercel AI Gateway上提供

Vercel News
Vercel News · 2025-12-01T13:00:00Z
FastDeploy 2.3:多模态模型推理加速30%+,原生支持文心多模态思考模型与PaddleOCR-VL!

FastDeploy 2.3是基于飞桨框架的高性能大模型推理部署套件,支持多种模型和硬件平台。此次更新优化了推理性能,新增ERNIE-4.5和PaddleOCR-VL模型支持,提升了跨硬件一致性和开发工具的易用性,用户可通过CLI工具简化部署流程,支持多模态推理。

FastDeploy 2.3:多模态模型推理加速30%+,原生支持文心多模态思考模型与PaddleOCR-VL!

百度大脑
百度大脑 · 2025-11-12T09:27:28Z
SemiAnalysis InferenceMAX:vLLM与NVIDIA加速Blackwell推理

与NVIDIA合作,优化Blackwell GPU架构以提升大语言模型的推理性能。通过重构和开发新内核,vLLM在Blackwell上实现了最高4倍的吞吐量提升,显著提高了推理效率。新基准测试显示,Blackwell在多种交互场景下表现优异,持续推动推理性能提升。

SemiAnalysis InferenceMAX:vLLM与NVIDIA加速Blackwell推理

vLLM Blog
vLLM Blog · 2025-10-09T00:00:00Z

Prefix Cache 是一种通过检测请求公共前缀来复用计算结果的缓存机制,旨在提升推理性能。使用 Radix Tree 构建缓存时,建议将不变部分放在前面。测试结果显示启用缓存后性能有所提升,但缓存命中率仍需进一步优化。

什么是 Prefix Cache

陈少文的博客
陈少文的博客 · 2025-09-11T00:00:00Z
AMD ROCm 追赶 NVIDIA CUDA:AI 芯片格局将变

AMD的ROCm平台在软件方面取得显著进展,缩小了与NVIDIA CUDA的差距。ROCm 7版本提升了AI推理性能,并计划在更多设备上支持该平台,进一步挑战NVIDIA的市场地位。专家预测,如果NVIDIA出现技术失误,AMD有望在AI芯片市场上颠覆其主导地位。

AMD ROCm 追赶 NVIDIA CUDA:AI 芯片格局将变

myfreax
myfreax · 2025-08-29T13:59:00Z
torch.compile 介绍及其与 vLLM 的工作原理

torch.compile 是 PyTorch 的即时编译器,旨在自动优化代码以提升大语言模型(LLM)的推理性能。它通过捕获张量操作生成优化内核,简化开发者的工作。vLLM 集成了 torch.compile,支持动态批量大小和自定义编译器传递,进一步提升性能。未来将改善稳定性和启动时间,推动推理性能的提升。

torch.compile 介绍及其与 vLLM 的工作原理

vLLM Blog
vLLM Blog · 2025-08-20T00:00:00Z

飞桨框架3.0推出了多硬件统一适配方案,降低了硬件适配成本,支持即插即用接入。该方案通过插件架构和标准接口,简化接入流程,提升模型训练和推理性能,降低开发门槛,促进硬件生态落地。

飞桨硬件接入方案升级,CUDA兼容类硬件后端Kernel复用可达92.6%

百度大脑
百度大脑 · 2025-08-15T12:25:39Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码