Cloud Native Computing Foundation ·

宣布KServe v0.15：推动生成AI模型服务

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

KServe v0.15发布，增强了对生成AI模型的支持，新增多节点推理、LLM自动扩展和分布式KV缓存功能，提高了服务效率和可扩展性。

🎯

❓

KServe v0.15增强了对生成AI模型的支持，新增多节点推理、LLM自动扩展和分布式KV缓存功能。

多节点推理功能支持在多个分布式GPU上进行推理，适用于大型模型服务。

KServe通过与KEDA集成，基于LLM特定指标实现智能扩展，优化资源管理。

分布式KV缓存功能优化生成AI推理性能，减少冗余计算，提高用户体验。

KServe v0.15支持Qwen3和Llama4模型，并增强了vLLM后端。

Envoy AI Gateway提供高级流量管理能力，支持动态模型路由和多租户推理。

🏷️

[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech
CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。它通过检查缓存返回相同输入的响应，若不存在则调用LLM并...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
Asana称其新的AI“首席助理”将您的Slack混乱转化为可追踪的工作
Asana在伦敦的工作创新峰会上推出了名为Dash的AI助手，旨在提升工作管理平台的效率。Dash能够从会议、Slack和邮件中捕捉待办事项，并将其转化为...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
Kaggle 使 AI 基准创建变得轻而易举
Kaggle Benchmarks推出本地开发功能，允许开发者在本地环境中创建和验证评估任务。该功能支持使用AI编码代理通过自然语言构建任务，旨在加速AI...