小红花·文摘

Kubernetes内置CPU和内存监控，但实际扩展决策依赖外部信号。本文介绍如何从零开始编写一个供Prometheus使用的指标导出器。导出器通过HTTP服务器在/metrics端点上暴露应用状态，Prometheus定期抓取数据。使用Go Prometheus客户端库注册指标，并通过轮询更新数据。最后，构建Docker镜像并在Kubernetes中部署，以确保Prometheus能够抓取这些指标，实现基于实际负载的自动扩展。

为Kubernetes构建自定义指标导出器

Kubernetes Blog ·

VictoriaMetrics（VM）是一款兼容Prometheus的时序数据库，具有低资源占用和强扩展性。它支持单机版和集群版，适合中小规模监控。单机版可替代Prometheus存储，集群版通过多个节点实现数据存储和查询。此外，VM支持vmagent抓取指标并写入，适用于自监控和Grafana集成。

容器部署 VictoriaMetrics

陈少文的博客 ·

Zenjoy 基于 Amazon Bedrock 和 EKS 构建 AIOps Agent：打通 Prometheus、ES 与夜莺的智能化告警实战

亚马逊AWS官方博客 ·

本文讨论了ClickHouse的监控与健康检查，强调了system表的重要性。建议监控system.parts、system.merges和system.replicas，以确保数据存储和查询的健康。提供了监控分层结构和常用查询示例，帮助识别潜在问题，如parts过多、merge堵塞和副本延迟，并提到与Prometheus集成的监控方法，以确保系统性能符合SLA要求。

【列存引擎内核】监控与系统表

土法炼钢兴趣小组的博客 ·

杰夫·贝索斯的AI初创公司旨在打造“通用人工工程师”

The Verge ·

[MAF预定义ChatClient中间件-08]OpenTelemetryChatClient-实现链路跟踪和性能监控 - Artech

Artech ·

Kubernetes集成税：Prometheus、Cilium与生产现实

Cloud Native Computing Foundation ·

Kubernetes v1.36：PSI指标正式发布

Kubernetes Blog ·

为什么Prometheus在凌晨2点无法看到Cilium指标

The New Stack ·

In modern application development, observability is no longer optional. It is a core requirement for stable operations, faster troubleshooting, and better understanding of system behavior....

A New Era of MySQL Monitoring: OpenTelemetry Metrics with Prometheus

Planet MySQL ·

Elastic 9.4：Workflows正式发布、Agent Builder更新及Prometheus/PromQL支持

Elastic Blog - Elasticsearch, Kibana, and ELK Stack ·

Elastic 9.4：Workflows 正式发布、Agent Builder 更新以及 Prometheus/PromQL 支持

Elastic Blog ·

监控与可观测性是不同的概念，监控关注预设问题和指标，而可观测性能够回答任意问题。传统的监控工具如Nagios和Zabbix逐渐被Prometheus和OpenTelemetry取代，后者支持更灵活的数据模型和多维度分析。可观测性强调记录足够的上下文信息，以便在故障发生时进行深入分析。随着微服务和复杂系统的普及，传统监控已无法满足需求，行业正向统一的可观测性平台发展。

【可观测性工程】可观测性 vs 监控：从 Zabbix/Nagios 到 OpenTelemetry 的二十年

土法炼钢兴趣小组的博客 ·

本文介绍了五种主要的度量指标存储方案：Prometheus、Thanos、Mimir、VictoriaMetrics和M3DB。重点分析了Prometheus的架构、数据模型及扩展方案，讨论了各方案的优缺点及适用场景，尤其是在高并发和多租户环境下的表现，并提供了一些工程实践中的常见问题及解决方案，以帮助用户选择合适的监控工具。