plantegg ·

长连接黑洞重现和分析

💡 原文中文，约13800字，阅读约需33分钟。

📝

内容提要

本文讨论了长连接黑洞问题及其对高可用切换的影响。长连接在网络故障时可能导致业务长时间无法恢复，主要由于TCP重传机制。通过调整TCP参数（如tcp_retries2）和设置SocketTimeout及TCP_USER_TIMEOUT，可以显著提高故障恢复效率。

🎯

❓

长连接黑洞问题是指在网络故障时，长连接可能导致业务长时间无法恢复，主要由于TCP重传机制造成的。

可以通过调整tcp_retries2参数、设置SocketTimeout和TCP_USER_TIMEOUT来提高故障恢复效率。

tcp_retries2的默认值为15，这意味着在故障时可能需要900秒以上才能恢复。

设置SocketTimeout可以控制请求超时时间，避免请求长时间挂起，从而提高业务的恢复速度。

可以使用setsockopt函数设置TCP_USER_TIMEOUT，指定在未收到ACK时多长时间后释放连接。

在K8S环境中，服务不可靠，POD可能随时被杀掉，导致客户端无法及时感知服务不可用，从而出现长连接黑洞问题。

🏷️