OpenAI ·

核心转储流行病学：修复一个存在18年的漏洞

💡 原文英文，约3700词，阅读约需14分钟。

📝

内容提要

OpenAI在调试Rockset服务时发现了两个崩溃问题：一个是硬件故障导致的堆栈错位，另一个是GNU libunwind库中的竞争条件。通过构建高质量的数据集，团队成功识别并解决了这些问题，强调了数据在调试中的重要性。

🎯

🔎

OpenAI团队在调试Rockset服务时，最初采用传统的调试方法，逐个检查核心转储。然而，由于问题复杂且难以定位，团队转向了流行病学的方法，收集高质量的崩溃数据。这一转变使他们能够识别出两个不同的崩溃群体，强调了数据在问题诊断中的重要性。

文章指出，GNU libunwind库中的一个竞争条件导致了崩溃问题。这一问题存在已久，但由于OpenAI的特定使用场景和信号处理方式，才在近期显现出影响。此案例提醒开发者在使用开源库时，需关注潜在的历史缺陷，尤其是在高负载情况下。

在调试过程中，团队发现一个有缺陷的主机导致了堆栈错位问题。虽然问题最终被解决，但这也反映出硬件故障对软件系统的潜在影响。开发者在设计系统时，应考虑硬件的可靠性，并建立有效的监控机制，以便及时发现和处理类似问题。

❓

OpenAI发现了两个崩溃问题：一个是由于硬件故障导致的堆栈错位，另一个是GNU libunwind库中的竞争条件。

Rockset是OpenAI用于搜索和实时分析的云原生数据系统，支持多种内部用例。

团队通过构建高质量的数据集，采用流行病学的方法分析崩溃数据，识别出不同的崩溃群体。

竞争条件导致在异常处理时，返回地址被错误地设置为NULL，从而引发崩溃。

团队通过切换到libgcc的异常处理程序，并加强了对系统的监控和数据收集来改善监控。

之前的调试方法未能有效识别问题，因为堆栈损坏使得日志中的信息难以分类和分析。

🏷️