The New Stack ·

教程：使用谷歌云Cloud Run进行GPU加速的无服务器推理

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

谷歌云为Cloud Run无服务器平台推出GPU支持，助力开发者加速模型推理。本文介绍如何在GPU基础的Cloud Run上部署Llama 3.1大语言模型，步骤包括环境初始化、部署TGI模型服务器和推理测试。

🎯

关键要点

谷歌云为Cloud Run无服务器平台推出GPU支持，帮助开发者加速模型推理。
本文介绍如何在GPU基础的Cloud Run上部署Llama 3.1大语言模型。
步骤包括环境初始化、部署TGI模型服务器和推理测试。
环境初始化需要设置项目ID、位置、容器URI和服务名称等环境变量。
使用Hugging Face的官方深度学习容器作为Cloud Run的部署单元。
通过gcloud命令配置项目和区域，并确保Cloud Run API已启用。
部署TGI模型服务器时，使用特定的命令行参数来配置模型和资源。
推理测试通过在本地机器上运行代理来暴露服务，并使用cURL命令进行测试。
可以使用OpenAI Python库与服务进行交互，首次请求会较慢，但后续请求会更快。
除了TGI，还可以在Google Cloud Run上部署其他模型服务器，如vLLM。

❓

延伸问答

如何在谷歌云Cloud Run上部署Llama 3.1大语言模型？

可以通过初始化环境变量、部署TGI模型服务器和进行推理测试来完成部署。

在Cloud Run上使用GPU加速有什么好处？

使用GPU加速可以显著提高模型推理的速度，提升开发者的工作效率。

如何初始化谷歌云Cloud Run的环境？

需要设置项目ID、位置、容器URI和服务名称等环境变量，并确保Cloud Run API已启用。

如何测试在Cloud Run上部署的模型服务？

可以通过在本地运行代理并使用cURL命令测试推理端点。

使用Hugging Face的容器部署模型时需要注意什么？

需要确保使用正确的容器URI，并配置相应的命令行参数以满足模型需求。

在Cloud Run上部署的模型服务如何与OpenAI Python库交互？

可以使用OpenAI Python库与服务进行交互，首次请求会较慢，但后续请求会更快。

🏷️

继续阅读

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
WordPress首页调用typecho教程（1.3.0版）
本文介绍了如何在WordPress中调用Typecho 1.3.0版的API，主要包括修改插件代码以返回完整正文和分类、解决时区问题以及处理Markdow...
构建无服务器Kiro调度平台：用Kiro CLI + EventBridge + ECS Fargate实现定时AI任务
Kiro Job Scheduler是一个基于AWS无服务器架构的AI任务调度平台，允许用户通过Web界面配置定时AI任务。用户可以创建自定义Agent、...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
正如我们在 AWS 2026“What’s Next”大会上预告的那样，我们现在正式宣布：OpenAI GPT […]
AdaCodec：一种适用于 AI 生成视频的编解码器
AI 推理的实际成本正为当前 AI 革命的迅猛势头注入一剂清醒剂，人们对优化机器学习成本的关注度也随之提升。除了将 AI 引入企业内部的潜力以及私有 AI...
粉笔科技的人大讲座事件的说明与致歉
6月3日，粉笔网CEO张小龙在人民大学的一场演讲引发热议，据多位现场学生及网络流传录音显示，在中国人民大学的一场职业规划讲座上，张小龙调整了演讲主题，将讨...