OpenAI通过Fluent Bit优化回收了30,000个CPU核心

OpenAI通过Fluent Bit优化回收了30,000个CPU核心

💡 原文英文,约700词,阅读约需3分钟。
📝

内容提要

在2025年的KubeCon+CloudNativeCon上,OpenAI的Fabian Ponce强调了优化的重要性。他们通过Fluent Bit处理数据,发现fstatat64函数占用了35%的CPU。关闭该功能后,节省了约30,000个CPU核心,显著提升了资源效率。Ponce指出,分析性能瓶颈至关重要。

🎯

关键要点

  • 在KubeCon+CloudNativeCon 2025上,OpenAI的Fabian Ponce强调了优化的重要性。
  • OpenAI通过Fluent Bit处理数据,发现fstatat64函数占用了35%的CPU。
  • 关闭fstatat64功能后,节省了约30,000个CPU核心,显著提升了资源效率。
  • Fluent Bit在每个Kubernetes节点上运行,生成每天10PB的数据。
  • OpenAI对GPU的需求巨大,计划到年底使用超过100万个GPU。
  • 使用perf工具分析Fluent Bit的CPU使用情况,发现性能瓶颈。
  • 每次写入新文件时,Fluent Bit都会执行fstatat64,导致额外的计算消耗。
  • 优化Fluent Bit后,团队能够在Kubernetes集群中释放更多的CPU资源。
  • Ponce建议定期使用性能分析工具,识别潜在的性能瓶颈。
➡️

继续阅读