Frytea's Blog ·

openFuyao InferNex AI推理集成部署 310P(300I Pro) 环境问题记录及解决

💡 原文中文，约124000字，阅读约需296分钟。

📝

内容提要

InferNex在云原生环境中优化AI推理，基于Kubernetes和LLM技术。部署过程中遇到内存不足和网络问题，建议使用国内镜像并调整配置以解决这些问题。

🎯

🔎

在InferNex的部署过程中，内存不足是一个常见问题。建议使用国内镜像源以提高下载速度，并在配置中调整资源申请，确保pod能够顺利启动。具体来说，可以通过增加内存限制和请求来解决此问题，避免因资源不足导致的pod无法启动。

在使用Ascend 310P芯片时，需注意该芯片不支持bfloat16数据类型，强制使用float16可以避免相关错误。此外，确保使用适合310P的镜像版本，以避免因镜像不兼容导致的启动失败。建议在部署前仔细检查镜像版本和配置。

在部署InferNex时，网络问题可能导致无法访问外部资源，如HuggingFace。为解决此问题，建议在huggingface-download的init容器中设置国内镜像源的环境变量，以确保能够顺利下载所需模型和数据。

❓

InferNex是一个为云原生环境下AI推理服务优化的集成部署方案，基于Kubernetes和LLM技术。

常见问题包括内存不足和网络问题，导致多个pod无法启动。

建议使用国内镜像源，并在配置中添加环境变量以解决网络问题。

Ascend 310P芯片不支持bfloat16数据类型，需强制使用float16以避免错误。

通过Helm Chart集成多个核心模块，提供完整的推理加速链路，以提升推理吞吐量并降低延迟。

建议根据实际情况调整资源申请和启动参数，确保与硬件兼容。

🏷️