推理是GPU周期的关键,而Kubernetes的假设容易出错。水平Pod自动扩展依赖于CPU和内存,但LLM推理应基于KV缓存利用率、请求队列深度和首次令牌时间进行扩展。错误的扩展指标可能导致GPU资源浪费或延迟。
完成下面两步后,将自动完成登录并继续当前操作。