技术深度剖析：DigitalOcean和AMD如何为Character.ai实现2倍的生产推理性能提升

The DigitalOcean Blog ·

技术深度剖析：DigitalOcean和AMD如何为Character.ai实现2倍的生产推理性能提升

💡 原文英文，约3300词，阅读约需12分钟。

📝

内容提要

Character.ai与DigitalOcean和AMD合作，优化了AI平台的GPU性能，实现推理吞吐量提升至2倍，降低了推理成本，提升了响应速度，满足大规模低延迟需求。

🎯

关键要点

Character.ai与DigitalOcean和AMD合作，优化了AI平台的GPU性能。
推理吞吐量提升至2倍，降低了推理成本，提升了响应速度。
优化了AMD Instinct™ MI300X和MI325X GPU平台，满足大规模低延迟需求。
通过平台级优化实现了高请求密度和卓越的响应能力。
使用Qwen、Mistral等多个模型，重点优化Qwen3-235B Instruct FP8模型。
在严格的延迟和并发约束下，实现了请求吞吐量的2倍提升。
采用分布式服务、张量并行和专家并行等技术优化模型性能。
通过AITER库加速机器学习工作负载，提升硬件效率。
在迁移到AMD Instinct GPU时，解决了内存访问故障和兼容性问题。
优化配置中使用FP8格式，降低显存使用，提高吞吐量。
通过启用前缀缓存，改善多轮对话的延迟和生成吞吐量。
DP2 / TP4 / EP4配置在相似条件下的吞吐量提高了45%。
DigitalOcean Kubernetes简化了GPU工作负载的管理，提供即用型GPU集群。
使用NFS缓存模型权重，减少模型加载时间10-15%。
强调多维优化、基础设施范式和硬件软件协同设计的重要性。
与AMD和Character.ai的合作展示了在规模上实现卓越性能的潜力。

❓

延伸问答

Character.ai与DigitalOcean和AMD的合作目标是什么？

目标是优化GPU性能，降低推理成本，并实现低延迟的大规模应用需求。

如何实现推理吞吐量的2倍提升？

通过优化AMD Instinct™ MI300X和MI325X GPU平台，以及采用分布式服务、张量并行和专家并行等技术实现。

在优化过程中遇到了哪些技术挑战？

主要挑战包括内存访问故障和兼容性问题，特别是在迁移到AMD Instinct GPU时。

使用FP8格式有什么优势？

FP8格式降低了显存使用，提高了吞吐量，并改善了多轮对话的延迟和生成吞吐量。

DigitalOcean Kubernetes在此项目中起到了什么作用？

DigitalOcean Kubernetes简化了GPU工作负载的管理，提供即用型GPU集群，帮助Character.ai快速启动LLM工作负载。

优化后的配置对成本有什么影响？

优化后的配置使得每个token的成本显著降低，直接减少了总拥有成本（TCO）。

🏷️

继续阅读

Talkdesk 利用 AI 驱动的客户体验自动化技术，瞄准本地部署的联络中心
Talkdesk 推出客户体验自动化 (CXA) 产品，旨在将 AI 功能整合到现有联络中心，支持多语言和全渠道客服。CXA 增强人工客服能力，降低运营成...
Moments Lab 与 AWS 合作，释放视频档案的价值
AI驱动的视频发现公司Moments Lab在NAB展会上宣布与亚马逊网络服务(AWS)合作，旨在帮助媒体和娱乐公司优化视频档案。通过AWS资源，Mome...
2026奇点智能技术大会：AI如何重塑软件开发
2026奇点智能技术大会于4月17-18日举行，聚焦AI如何重塑软件开发。大会汇聚60多位专家，探讨Agent系统对软件开发的影响，并发布了三项关键成果：...
大华股份携AI大模型与物联技术参加中国林业大会
大华股份在第七届中国林业大会上展示了AI大模型和物联技术，重点关注林草生态感知、森林防火和生物多样性监测。公司分享了火情误报分析、动物视图与声纹识别等创新...
Agent正杀入软件研发一线！全球超60位技术专家拆解AI落地困局，2026奇点智能技术大会收官
2026奇点智能技术大会探讨了AI如何重塑软件开发。专家们认为，智能体正在改变软件形态和开发方式。大会发布了AI软件研发成熟度模型、开源影响力榜单及AI开...
技术深度揭秘｜云知声U1-OCR架构升级 + API 开放，重构 OCR 3.0 时代
云知声发布了工业级文档智能基础大模型Unisound U1-OCR，标志着OCR 3.0时代的到来。该模型具备高效部署和强适配能力，支持金融、医疗等行业的...