程序师 ·

从谷歌 20 年的站点可靠性工程（SRE）中学到的 11 个经验教训

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

谷歌站点可靠性工程的11个经验教训，包括故障削减措施与故障严重程度成比例、全面测试恢复机制、金丝雀变更、备份通信通道、故障弹性测试等。这些教训通过谷歌在不同故障中的经验总结而来，对提高系统可靠性和稳定性至关重要。

🎯

🏷️

美食记录——朱富贵海鲜火锅
朱富贵海鲜火锅是一家人均消费约¥84的网红自助火锅店，提供十二种汤底，菜品新鲜但分类不明显。排队时间较长，服务效率低，整体体验适合海鲜爱好者。
布鲁斯·莫姆贾恩：新演讲
我一直想做关于预写日志（WAL）的演讲，随着Postgres对WAL功能的依赖增加，演讲内容逐渐丰富，最终形成了103张幻灯片。
NanoClaw可以将每个AI代理放入自己的Docker容器中，以应对OpenClaw的安全问题
机器人访问WhatsApp面临挑战。大多数OpenClaw用户使用WhatsApp，但没有商业账户无法创建新用户。WhatsApp连接依赖于Baileys...
扩展人类判断：Dropbox如何利用大型语言模型提升RAG系统的标注效率
Dropbox通过结合人类标注和大型语言模型（LLMs）生成的标签，提升了文档检索的相关性和标注效率。尽管LLM存在局限性，但人类校准显著改善了RAG系统的性能。
索尼似乎正在对PlayStation游戏进行动态定价测试
PSprices网站发现索尼数字游戏商店对不同用户的游戏价格存在差异，这些优惠通过PlayStation API中的实验标识符进行跟踪。
Rapidhash Unity 移植
十年前，我编写了非加密哈希函数。当时xxHash刚推出（2014年），之后更新为XXH3（2020年），出现了wyhash（2020年后），最终演变为ra...