LangChain Blog ·

2025年5月1日LangSmith事件

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

2025年5月1日，LangSmith API因DNS记录冲突导致55%的请求在28分钟内失败。用户首次报告错误时，证书已过期。问题通过删除冲突记录和手动更新证书解决，暴露出监控不足，团队已采取措施防止类似问题再次发生。

🎯

关键要点

2025年5月1日，LangSmith API因DNS记录冲突导致55%的请求在28分钟内失败。
问题源于证书过期，用户首次报告错误时证书已过期。
冲突的DNS记录是在证书续订自动化技术迁移过程中意外留下的。
手动更新证书和删除冲突记录后，SSL连接恢复正常。
事件未通过主动监控发现，而是由内部和外部用户首次报告。
证书续订失败的指示包括证书资源处于“待处理”状态和错误日志。
人类错误包括未删除冲突的Google管理SSL证书和错误假设监控有效性。
为防止类似问题，已添加证书过期监控和运行摄取量监控。
确保所有Kubernetes系统组件日志被记录，并正在构建内部仪表板以监控关键工作流。

🔎

延伸解读

事件背景与影响

LangSmith API在2025年5月1日发生的事件，导致55%的请求失败，影响了用户的正常使用。这一事件不仅暴露了证书管理中的漏洞，也反映出在技术迁移过程中可能出现的风险，提醒企业在进行系统更新时需特别关注潜在的兼容性问题。

监控与响应的重要性

此次事件未能通过主动监控及时发现，反而是用户首次报告了问题。这强调了企业在技术运维中，建立有效的监控机制的重要性，以便快速响应潜在故障，减少对用户的影响。

人类错误的教训

事件中涉及的人为错误，如未删除冲突的DNS记录，提醒团队在技术操作中需保持谨慎，并确保所有变更都有相应的审查和验证流程，以防止类似问题再次发生。

未来改进措施

为了防止类似事件的重演，LangSmith团队已采取措施，包括增加证书过期监控和运行摄取量监控。这些改进将有助于提升系统的稳定性和可靠性，确保用户体验不受影响。

❓

延伸问答

LangSmith API在2025年5月1日发生了什么事件？

LangSmith API因DNS记录冲突导致55%的请求在28分钟内失败，用户首次报告时证书已过期。

导致LangSmith API请求失败的主要原因是什么？

主要原因是证书过期和冲突的DNS记录，后者是在证书续订自动化技术迁移过程中意外留下的。

如何解决LangSmith API的连接问题？

通过删除冲突的DNS记录和手动更新SSL证书，恢复了连接。

事件是如何被发现的？

事件未通过主动监控发现，而是由内部和外部用户首次报告。

为了防止类似问题再次发生，LangSmith采取了哪些措施？

已添加证书过期监控和运行摄取量监控，并确保所有Kubernetes系统组件日志被记录。

在事件中有哪些人类错误导致了问题？

人类错误包括未删除冲突的Google管理SSL证书和错误假设监控有效性。

🏷️