plantegg ·

长连接黑洞重现和分析

💡 原文中文，约15300字，阅读约需37分钟。

📝

内容提要

本文讨论了长连接黑洞问题，即数据库crash重启后业务长时间不能恢复的问题，并提出了解决方法。建议业务方设置合适的SocketTimeout参数，数据库团队在高可用切换时断开所有老连接，同时在操作系统层面设置合适的参数。还提到了TCP_USER_TIMEOUT参数和连接池的配置建议。总结了解决该问题的最佳实践。

🎯

关键要点

长连接黑洞问题导致数据库崩溃重启后业务长时间无法恢复。
建议设置合适的SocketTimeout参数以控制请求超时时间。
数据库团队在高可用切换时应断开所有老连接。
操作系统层面应设置合适的tcp_retries2参数以减少恢复时间。
TCP_USER_TIMEOUT参数可以帮助更精确地控制连接超时。
连接池配置应参考最佳实践，避免使用有bug的连接池设置SocketTimeout。
LVS在处理长连接时应支持设置重置时间以快速恢复连接。
业务方应重视超时设置，避免长时间挂起的请求影响业务恢复。
总结最佳实践，确保超时时间可控和可预期，减少故障恢复时间。

❓

延伸问答

长连接黑洞问题是什么？

长连接黑洞问题是指数据库崩溃重启后，业务长时间无法恢复的现象，通常由于TCP连接未及时释放导致。

如何设置SocketTimeout参数以解决长连接黑洞问题？

建议业务方设置合适的SocketTimeout参数，以控制请求的超时时间，避免长时间挂起的请求。

在高可用切换时，数据库团队应该采取什么措施？

数据库团队在高可用切换时应断开所有老连接，以减少恢复时间。

TCP_USER_TIMEOUT参数有什么作用？

TCP_USER_TIMEOUT参数用于精确控制TCP连接的超时时间，确保在未收到ACK时及时释放连接。

如何通过操作系统参数减少长连接黑洞的影响？

可以通过设置tcp_retries2参数为较小值（如5-10）来减少长连接黑洞的恢复时间。

长连接黑洞问题在K8S环境中更明显的原因是什么？

在K8S环境中，服务不可靠，POD可能随时被删除，导致长连接无法及时重置，从而加剧了长连接黑洞问题。

🏷️