小红花·文摘

本文介绍了如何为资源配置告警规则，重点在于个别资源的阈值调整。首先，为所有资源统一标签，例外资源使用不同标签。然后，通过标签匹配创建资源分组，制定自定义告警模板并关联告警规则。最后，通过管理资源标签调整告警阈值。

运维提效技巧：用标签给资源 “归类”，关联告警模版省心又省力

华为云官方博客 ·

如何将Prometheus风格的告警和记录规则导入Grafana管理的告警和记录规则

engineering on Grafana Labs ·

文章讨论了京东物流在业务监控中的实践，强调系统监控指标与业务监控指标的关联性。指出业务异常常依赖用户反馈，导致滞后，影响运营稳定性。介绍了多个业务监控平台的建设及应用案例，并强调优化告警规则以提升系统可用性和用户体验。

物流KA商家业务监控能力建设与实践

京东科技开发者 ·

夜莺是一个高可用的告警引擎，支持多数据源接入和统一管理告警规则。它具有灵活的告警规则配置和内置的最佳实践，但仪表盘和告警降噪能力有待改进。夜莺的用户包括移动、联通、电信等企业。

9k star 监控系统，100% 国产，推荐了解（文末福利）

运维派 ·

本文介绍了K8s集群CoreDNS监控告警的最佳实践，使用CCE集群插件kube-prometheus-stack进行指标监控，通过AOM2.0服务展示和通知告警。文章列举了coreDNS的关键指标，包括请求速率、请求数据包大小、响应速率、响应时延、缓存。最后介绍了配置和触发coreDNS的告警规则。

K8s集群CoreDNS监控告警最佳实践

华为云官方博客 ·

本文介绍了如何通过监控不同指标来优化Memcached的使用效率和命中率，包括监控存储状态和使用情况，提供了Memcached Overview大盘和告警规则，以及针对命中率低和内存使用率高的排查方法和解决方案。同时，介绍了自建Prometheus监控Memcached的痛点。

统一观测丨使用 Prometheus 监控 Memcached 最佳实践

阿里云云栖号 ·

本文介绍了如何监控 Microsoft SQL Server 的关键指标，并提供了监控大盘和告警规则配置。同时，文章提出了使用阿里云 Prometheus 进行自建 SQL Server 监控的方法。

统一观测丨使用 Prometheus 监控 SQL Server 最佳实践

阿里云云栖号 ·

本文总结了FreeBuf甲方群话题讨论第220期的内容，包括优化监测设备的告警规则、告警排查流程、传输加密和API安全的解决方案，以及安全团队的分组。讨论中提出了禁止IP地址、调整误报规则、加白误报内容等优化告警规则的策略。在告警排查方面，建议通过复现、观察设备动作和检查请求响应内容来判断告警是否误报。传输加密和API安全方面，建议使用HTTPS协议进行传输加密，并进行双向证书校验。安全团队的分组建议根据业务范围和责任范围进行划分。

演习前监测设备如何调优；传输加密有无新方案 | FB甲方群话题讨论

FreeBuf网络安全行业门户 ·

在攻防演练前需调优监测设备的告警规则。忽略僵尸、木马、蠕虫、C2远控类告警，视情况处理挖矿病毒类告警。重点关注web层面的攻击，如SQL注入、命令执行、文件上传等。特别关注高危CVE漏洞+攻击成功。单独设规则处理Webshell类告警，关注流量上下文、命令执行和响应体、持续访问webshell路径的频率。排查内存马，关注error.log和脚本扫描。研判漏洞是否存在、是否攻击成功，需考虑流量上下文、手工验证和攻击频率。应急溯源中，沟通和时效性至关重要，尽快出报告。

攻防演练中一些心得总结（蓝队视角）

FreeBuf网络安全行业门户 ·