2025年5月1日LangSmith事件

2025年5月1日LangSmith事件

💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

2025年5月1日,LangSmith API因证书过期导致55%的请求在28分钟内失败。问题源于迁移时遗留的DNS记录,导致证书续订失败。经过手动删除冲突记录并更新证书后,服务恢复。此事件暴露了监控不足的问题,团队已采取措施防止类似事件再次发生。

🎯

关键要点

  • 2025年5月1日,LangSmith API因证书过期导致55%的请求在28分钟内失败。
  • 问题源于迁移时遗留的DNS记录,导致证书续订失败。
  • 证书过期后,LangSmith UI显示“您的连接不安全”,所有新连接尝试失败。
  • 事件未通过主动监控发现,而是由内部和外部用户首次报告。
  • 事件时间线显示从迁移到证书续订失败的详细过程。
  • 解决方案是删除冲突的DNS记录并手动请求证书续订。
  • 人类错误包括未删除冲突的Google管理SSL证书和错误假设存在有效的证书过期监控。
  • 采取措施防止类似事件再次发生,包括添加证书过期监控和确保Kubernetes系统组件日志的完整性。
  • 团队承诺投资于平台的可靠性和事件响应过程的改进。
➡️

继续阅读