LangChain Blog ·

2025年5月1日LangSmith事件

Q: 在LangSmith事件中，API请求失败的比例是多少？

在事件期间，约55%的API请求失败。

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

2025年5月1日，LangSmith API因证书过期导致55%的请求在28分钟内失败。问题源于迁移时遗留的DNS记录，导致证书续订失败。经过手动删除冲突记录并更新证书后，服务恢复。此事件暴露了监控不足的问题，团队已采取措施防止类似事件再次发生。

🎯

关键要点

2025年5月1日，LangSmith API因证书过期导致55%的请求在28分钟内失败。
问题源于迁移时遗留的DNS记录，导致证书续订失败。
证书过期后，LangSmith UI显示“您的连接不安全”，所有新连接尝试失败。
事件未通过主动监控发现，而是由内部和外部用户首次报告。
事件时间线显示从迁移到证书续订失败的详细过程。
解决方案是删除冲突的DNS记录并手动请求证书续订。
人类错误包括未删除冲突的Google管理SSL证书和错误假设存在有效的证书过期监控。
采取措施防止类似事件再次发生，包括添加证书过期监控和确保Kubernetes系统组件日志的完整性。
团队承诺投资于平台的可靠性和事件响应过程的改进。

🔎

延伸解读

事件的根本原因分析

LangSmith事件的根本原因在于迁移过程中遗留的DNS记录，导致证书续订失败。这一问题突显了在技术迁移时，团队需要更加细致的检查和验证，以避免类似的技术故障。

监控机制的重要性

此次事件暴露了LangSmith在证书过期监控方面的不足。缺乏主动监控使得问题未能及时发现，强调了企业在技术运营中建立有效监控机制的必要性，以确保服务的持续可用性。

人类错误的影响

事件中涉及的人为错误，如未删除冲突的SSL证书，显示出团队在操作流程中的疏忽。这提醒企业在技术管理中应加强培训和流程审查，以减少人为失误带来的风险。

❓

延伸问答

LangSmith事件的主要原因是什么？

主要原因是迁移时遗留的DNS记录导致证书续订失败。

在LangSmith事件中，API请求失败的比例是多少？

在事件期间，约55%的API请求失败。

LangSmith事件是如何被发现的？

事件最初是由内部和外部用户报告的，而不是通过主动监控发现的。

LangSmith团队采取了哪些措施来防止类似事件再次发生？

团队增加了证书过期监控，并确保Kubernetes系统组件日志的完整性。

事件发生后，LangSmith的服务恢复是如何实现的？

通过删除冲突的DNS记录并手动请求证书续订，服务得以恢复。

LangSmith事件中有哪些人类错误导致了问题？

包括未删除冲突的Google管理SSL证书和错误假设存在有效的证书过期监控。

🏷️