2025年5月1日LangSmith事件

2025年5月1日LangSmith事件

💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

2025年5月1日,LangSmith API因证书过期导致55%的请求在28分钟内失败。问题源于迁移时遗留的DNS记录,导致证书续订失败。经过手动删除冲突记录并更新证书后,服务恢复。此事件暴露了监控不足的问题,团队已采取措施防止类似事件再次发生。

🎯

关键要点

  • 2025年5月1日,LangSmith API因证书过期导致55%的请求在28分钟内失败。
  • 问题源于迁移时遗留的DNS记录,导致证书续订失败。
  • 证书过期后,LangSmith UI显示“您的连接不安全”,所有新连接尝试失败。
  • 事件未通过主动监控发现,而是由内部和外部用户首次报告。
  • 事件时间线显示从迁移到证书续订失败的详细过程。
  • 解决方案是删除冲突的DNS记录并手动请求证书续订。
  • 人类错误包括未删除冲突的Google管理SSL证书和错误假设存在有效的证书过期监控。
  • 采取措施防止类似事件再次发生,包括添加证书过期监控和确保Kubernetes系统组件日志的完整性。
  • 团队承诺投资于平台的可靠性和事件响应过程的改进。

延伸问答

LangSmith事件的主要原因是什么?

主要原因是迁移时遗留的DNS记录导致证书续订失败。

在LangSmith事件中,API请求失败的比例是多少?

在事件期间,约55%的API请求失败。

LangSmith事件是如何被发现的?

事件最初是由内部和外部用户报告的,而不是通过主动监控发现的。

LangSmith团队采取了哪些措施来防止类似事件再次发生?

团队增加了证书过期监控,并确保Kubernetes系统组件日志的完整性。

事件发生后,LangSmith的服务恢复是如何实现的?

通过删除冲突的DNS记录并手动请求证书续订,服务得以恢复。

LangSmith事件中有哪些人类错误导致了问题?

包括未删除冲突的Google管理SSL证书和错误假设存在有效的证书过期监控。

➡️

继续阅读