运维派 ·

Linux系统性能瓶颈分析：CPU、内存、磁盘、网络四维排查法

💡 原文中文，约23000字，阅读约需55分钟。

📝

内容提要

本文介绍了Linux性能监控的适用场景、前提条件及工具，强调在特定情况下不应仅依赖此方案。提供了性能瓶颈分析步骤，包括CPU、内存、磁盘和网络的排查方法，并列出常见瓶颈及优化措施。建议使用Prometheus和Grafana等监控工具进行系统监控。

🎯

🔎

在进行Linux系统性能监控时，适用场景包括服务器响应慢、应用卡顿等。需要确保使用特定版本的操作系统和工具，如RHEL/CentOS 7.9+或Ubuntu 20.04+，并具备root或sudo权限。了解这些前提条件有助于更有效地进行性能分析。

虽然性能监控工具能帮助识别CPU、内存、磁盘和网络的瓶颈，但在某些情况下，如应用层逻辑问题或数据库内部问题，仅依赖这些工具可能无法解决根本问题。因此，结合其他工具和方法进行全面分析是必要的。

在选择性能监控工具时，应根据具体需求进行比较。例如，Prometheus和Grafana适合系统监控，而针对应用代码性能问题则推荐使用Go pprof或Python py-spy。了解不同工具的适用场景可以帮助更有效地进行性能优化。

❓

可以通过查看Load Average与CPU核心数的比值，Load Average / CPU核心数 > 1.0表示CPU接近饱和。

使用命令free -h可以查看内存的总量、已用量和可用量，重点关注available字段。

推荐使用Prometheus和Grafana进行系统监控，这些工具支持多种性能监控特性。

可以使用iostat命令查看磁盘IO统计，关注%util和r_await/w_await指标，%util > 80%表示IO瓶颈。

可以使用ss和netstat命令查看网络连接状态，关注重传率和丢包情况，重传率>5%需排查网络。

可以使用一键诊断脚本，该脚本会收集系统信息、CPU、内存、磁盘IO和网络连接等数据。

🏷️