Clockwork专注于优化大型集群中GPU间的通信,以提升AI工作负载效率。其核心技术FleetIQ能够自动绕过故障网络交换机,确保训练过程不中断,特别适合大型LLM训练。Clockwork成立于2018年,最初专注于时钟同步,后发展为网络遥测系统,动态控制流量,提升性能和容错能力。
随着GPU性能提升,网络瓶颈问题愈发明显。Clockwork通过精准同步时钟,提供GPU集群和网络监控解决方案,帮助识别瓶颈。新推出的FleetIQ工具实现跨层可视化,增强故障容错和自动性能优化,提高基础设施的利用率和可靠性。
完成下面两步后,将自动完成登录并继续当前操作。