小红花·文摘 - 小红花技术领袖俱乐部

我们如何在DigitalOcean NVIDIA HGX™ B300 GPU Droplets上构建最具性能的DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B

我们如何在DigitalOcean NVIDIA HGX™ B300 GPU Droplets上构建最具性能的DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B

The DigitalOcean Blog ·

DeepSeek-V4发布，华为云首发适配

量子位 ·

最强开源模型 DeepSeek V4 发布，1M上下文，运行成本大降

最强开源模型 DeepSeek V4 发布，1M上下文，运行成本大降

小众软件 ·

PyTorch 2引入torch.export功能，允许将模型导出为静态图以优化推理性能。自定义操作可通过无状态的torch.ops或有状态的torch.classes定义。导出时需避免数据依赖形状和控制流，以确保模型可静态表示。导出的模型可在Python中保存和加载，但在C++中需使用AOTInductor或Executorch进行优化和编译，确保模型无图断裂是推理的关键。

PyTorch 导出

Lei Mao's Log Book ·

迎接高性能、低成本推理的新标准：NVIDIA Dynamo 1.0现已向DigitalOcean客户开放

迎接高性能、低成本推理的新标准：NVIDIA Dynamo 1.0现已向DigitalOcean客户开放

The DigitalOcean Blog ·

DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

The DigitalOcean Blog ·

英伟达宣布因内存供应紧张其AI工作站DGX SPARK从3,999美元涨价到4,699美元

英伟达宣布因内存供应紧张其AI工作站DGX SPARK从3,999美元涨价到4,699美元

蓝点网 ·

在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

vLLM Blog ·

文章讨论了AI基础设施的最新动态，重点在于硬件加速和智能体记忆层的进展。ntransformer和Taalas ASIC优化了推理性能，Aethene和zclaw则提出了智能体记忆和边缘部署的新思路。企业AI正向规模化发展，推理成本成为关键挑战。

AI Infra Brief｜硬件加速与智能体记忆层突破（2026.02.23）

dotNET跨平台 ·

谷歌发布Gemini 3.1 Pro，推理性能是3 Pro的两倍，支持复杂任务生成3D可视化内容。该模型在多模态理解和长上下文方面有显著提升，用户反馈良好，定价与前代相同，智能成本持续下降，推动大模型发展。

谷歌突发Gemini 3.1 Pro！首次采用「.1」版本号，推理性能×2的那种

量子位 ·

讯飞星火X2大模型发布，推理性能提升50%，在数学和逻辑推理等核心能力上表现优异。该模型基于国产算力，支持多语言，广泛应用于医疗、教育和汽车等领域，推动行业升级，彰显国产AI实力。

神仙打架+1！讯飞星火X2硬核亮相，行业深度全面升级

量子位 ·

面壁智能推出的全模态大模型MiniCPM-o 4.5与众智FlagOS系统合作，实现对六大主流AI芯片的快速适配，推理性能显著优于原生方案。FlagOS提供高效的跨芯片软件栈，确保模型在多硬件上高效运行，推动AI技术广泛应用。

“一次开发，跨芯运行”：众智FlagOS与面壁智能联手，破解 AI大模型跨芯适配难题

量子位 ·

MIT研究团队提出递归语言模型RLM，解决大模型在处理超长文本时的上下文腐烂问题。RLM通过交互式Python环境动态拆解任务，实现千万级token处理能力，显著提升推理性能，无需修改模型架构。

真·开外挂！MIT新研究：架构0改动，让大模型解锁千万级上下文

量子位 ·

DeepSeek V3.2模型现已在Vercel AI Gateway上提供

DeepSeek V3.2模型现已在Vercel AI Gateway上提供

Vercel News ·

FastDeploy 2.3：多模态模型推理加速30%+，原生支持文心多模态思考模型与PaddleOCR-VL！

FastDeploy 2.3：多模态模型推理加速30%+，原生支持文心多模态思考模型与PaddleOCR-VL！

百度大脑 ·

SemiAnalysis InferenceMAX：vLLM与NVIDIA加速Blackwell推理

SemiAnalysis InferenceMAX：vLLM与NVIDIA加速Blackwell推理

vLLM Blog ·

Prefix Cache 是一种通过检测请求公共前缀来复用计算结果的缓存机制，旨在提升推理性能。使用 Radix Tree 构建缓存时，建议将不变部分放在前面。测试结果显示启用缓存后性能有所提升，但缓存命中率仍需进一步优化。

什么是 Prefix Cache

陈少文的博客 ·

AMD ROCm 追赶 NVIDIA CUDA：AI 芯片格局将变

AMD ROCm 追赶 NVIDIA CUDA：AI 芯片格局将变

myfreax ·

torch.compile 介绍及其与 vLLM 的工作原理

torch.compile 介绍及其与 vLLM 的工作原理

vLLM Blog ·

飞桨框架3.0推出了多硬件统一适配方案，降低了硬件适配成本，支持即插即用接入。该方案通过插件架构和标准接口，简化接入流程，提升模型训练和推理性能，降低开发门槛，促进硬件生态落地。

飞桨硬件接入方案升级，CUDA兼容类硬件后端Kernel复用可达92.6%

百度大脑 ·