使用亚马逊云科技自研芯片 Inferentia2 部署 DeepSeek R1 Distillation 模型(一)

使用亚马逊云科技自研芯片 Inferentia2 部署 DeepSeek R1 Distillation 模型(一)

💡 原文中文,约4700字,阅读约需12分钟。
📝

内容提要

亚马逊云科技将于2025年1月推出DeepSeek系列大模型,用户可通过多种方式部署DeepSeek-R1模型。该模型可在自研芯片Inferentia2上高效运行,支持Docker容器和在线推理,服务覆盖多个地区,具备价格优势,满足全球客户需求。

🎯

关键要点

  • 亚马逊云科技将于2025年1月推出DeepSeek系列大模型,用户可通过多种方式部署DeepSeek-R1模型。
  • DeepSeek-R1模型可在自研芯片Inferentia2上高效运行,支持Docker容器和在线推理。
  • 服务覆盖多个地区,具备价格优势,满足全球客户需求。
  • 用户可以通过Amazon Bedrock Marketplace、Amazon SageMaker JumpStart等方式部署DeepSeek-R1模型。
  • Inferentia2是亚马逊云科技自主研发的云端机器学习推理芯片,提供高性能和高效率的计算能力。
  • 文章分为两篇,第一篇介绍如何使用Inferentia2部署DeepSeek R1 Distillation模型,第二篇介绍如何使用SageMaker Endpoint部署模型。
  • 创建EC2实例时需申请增加配额,使用inf2.8xlarge作为实例类型。
  • 制作Docker镜像需要进行ECR身份验证,并创建Dockerfile文件以包含所需工具。
  • 下载模型权重并创建Docker容器以运行vLLM推理服务器。
  • 启动vLLM Docker容器并进行客户端测试,使用curl命令进行API调用。
  • 亚马逊云科技在多个地区提供Trn1/Inf2实例,具有40%以上的价格优势,满足全球客户需求。
➡️

继续阅读