小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Kubernetes集成税:Prometheus、Cilium与生产现实

文章讨论了在生产环境中运行多个CNCF项目时的集成税,强调了团队在连接项目时所需的时间和精力。作者分享了集成过程中遇到的问题及解决方案,指出使用Cluster API和GitOps方法可以简化管理和灾难恢复。通过自动化和标准化配置,团队提高了效率,减少了故障发生。

Kubernetes集成税:Prometheus、Cilium与生产现实

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-05-28T11:00:00Z
Zenjoy 基于 Amazon Bedrock 和 EKS 构建 AIOps Agent:打通 Prometheus、ES 与夜莺的智能化告警实战

Zenjoy基于Amazon Bedrock和EKS构建的AIOps Agent,通过数学算法与大语言模型结合,提升监控告警的准确性。该方案利用Z-Score和IQR等算法分析监控数据,减少误报和漏报,并通过夜莺平台实现告警统一管理,显著提高运维效率,适应微服务架构的复杂性。

Zenjoy 基于 Amazon Bedrock 和 EKS 构建 AIOps Agent:打通 Prometheus、ES 与夜莺的智能化告警实战

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-05-19T08:54:11Z
Kubernetes v1.36:PSI指标正式发布

自2018年在Linux内核中实施以来,压力停滞信息(PSI)帮助用户在资源饱和前识别问题。Kubernetes v1.36发布后,用户可以在节点、Pod和容器级别观察资源竞争。测试表明,Kubelet的PSI功能对资源使用影响微小,适合生产环境。PSI指标可通过Prometheus监控,需满足特定内核配置。

Kubernetes v1.36:PSI指标正式发布

Kubernetes Blog
Kubernetes Blog · 2026-05-12T18:35:00Z
为什么Prometheus在凌晨2点无法看到Cilium指标

文章讨论了在生产环境中运行多个CNCF项目时的“集成税”,即整合不同工具的隐性成本。互操作性不足导致监控和证书管理等功能失效。通过Cluster API(CAPI)和GitOps方法,可以简化集群管理和灾难恢复,提高系统的可维护性和安全性。

为什么Prometheus在凌晨2点无法看到Cilium指标

The New Stack
The New Stack · 2026-05-10T14:00:00Z

In modern application development, observability is no longer optional. It is a core requirement for stable operations, faster troubleshooting, and better understanding of system behavior....

A New Era of MySQL Monitoring: OpenTelemetry Metrics with Prometheus

Planet MySQL
Planet MySQL · 2026-05-07T01:58:47Z
Elastic 9.4:Workflows正式发布、Agent Builder更新及Prometheus/PromQL支持

Elastic 9.4发布了多个新功能,包括优化的Agent Builder、原生Prometheus支持和Elastic Workflows。新版本增强了AI驱动的安全操作、监控和自动化能力,提高了性能和效率,帮助用户更好地管理和分析数据。

Elastic 9.4:Workflows正式发布、Agent Builder更新及Prometheus/PromQL支持

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2026-05-05T00:00:00Z
Elastic 9.4:Workflows 正式发布、Agent Builder 更新以及 Prometheus/PromQL 支持

Elastic 9.4 正式发布,新增 Elastic Workflows、Agent Builder 更新及原生 Prometheus/PromQL 支持。此版本提升了 AI 驱动的安全运营能力,优化了上下文管理,增强了日志和指标处理性能,提供统一平台以加速问题解决。新功能包括精确实体识别、动态观察列表及智能体调查能力,旨在提升安全性和合规性。

Elastic 9.4:Workflows 正式发布、Agent Builder 更新以及 Prometheus/PromQL 支持

Elastic Blog
Elastic Blog · 2026-05-05T00:00:00Z

监控与可观测性是不同的概念,监控关注预设问题和指标,而可观测性能够回答任意问题。传统的监控工具如Nagios和Zabbix逐渐被Prometheus和OpenTelemetry取代,后者支持更灵活的数据模型和多维度分析。可观测性强调记录足够的上下文信息,以便在故障发生时进行深入分析。随着微服务和复杂系统的普及,传统监控已无法满足需求,行业正向统一的可观测性平台发展。

【可观测性工程】可观测性 vs 监控:从 Zabbix/Nagios 到 OpenTelemetry 的二十年

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文介绍了五种主要的度量指标存储方案:Prometheus、Thanos、Mimir、VictoriaMetrics和M3DB。重点分析了Prometheus的架构、数据模型及扩展方案,讨论了各方案的优缺点及适用场景,尤其是在高并发和多租户环境下的表现,并提供了一些工程实践中的常见问题及解决方案,以帮助用户选择合适的监控工具。

【可观测性工程】Metrics:Prometheus、VictoriaMetrics、Thanos、Mimir、M3

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
从定制到开放:使用Prometheus实现可扩展的网络探测和HTTP/3准备

Slack在HTTP/3支持中遇到客户端可观察性不足的问题。实习生Sebastian Feliciano为Prometheus Blackbox Exporter实现了QUIC支持,解决了监测HTTP/3端点的难题。这一开源贡献提升了监测能力,并为Prometheus社区带来了益处,未来将继续改进。

从定制到开放:使用Prometheus实现可扩展的网络探测和HTTP/3准备

Slack Engineering
Slack Engineering · 2026-03-31T17:00:39Z
KubeCon + CloudNativeCon 欧洲 2026 联合活动深入探讨:观察日

观察日已成为云原生观察性社区的重要活动,汇聚了Prometheus、Fluentd等项目的维护者与实践者,涵盖AI系统、成本效率等新领域,提供多样化课程,促进项目间合作与交流。

KubeCon + CloudNativeCon 欧洲 2026 联合活动深入探讨:观察日

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-03-13T11:00:00Z
可观察性平台迁移指南:Prometheus、OpenTelemetry 和 Fluent Bit

本文讨论了观察平台迁移的最佳实践,强调使用开放标准工具(如Prometheus和OpenTelemetry)以简化迁移过程。迁移前需记录关键数据,明确需求,逐步引入新平台,确保可见性。通过双重运行验证新系统的有效性,最终将流量转移至新平台,确保团队顺利过渡。

可观察性平台迁移指南:Prometheus、OpenTelemetry 和 Fluent Bit

The New Stack
The New Stack · 2026-02-26T15:28:43Z
OpenTelemetry路线图:未来的采样率和收集器改进

OpenTelemetry已成为许多组织的标准,旨在统一应用程序的遥测数据。在布鲁塞尔举行的OTel Unplugged EU会议上,讨论了OpenTelemetry的未来和路线图,包括增强采样算法和简化微服务的可观察性。项目提出了“实体”概念以定义资源身份,并计划稳定核心收集器。同时,与Prometheus的集成也有显著改善,支持UTF-8等新特性。

OpenTelemetry路线图:未来的采样率和收集器改进

The New Stack
The New Stack · 2026-02-24T19:00:44Z
Prometheus与OpenTelemetry终于和谐共处

Prometheus与OpenTelemetry之间的技术不兼容争议已解决。Prometheus仍是Kubernetes度量的标准,而OpenTelemetry则补充了分布式追踪和日志。两者的集成显著改善,Prometheus 3.0支持UTF-8,简化了开发者工作,促进了合作,减少了复杂性。

Prometheus与OpenTelemetry终于和谐共处

The New Stack
The New Stack · 2026-02-19T18:00:24Z
构建Prometheus:后端聚合如何支持千兆瓦级AI集群

后端聚合(BAG)在Meta的Prometheus AI集群中至关重要,连接数千个GPU,支持1千兆瓦的容量。BAG通过分布式架构和模块化硬件,确保高性能和可靠性,满足未来需求,推动Meta全球网络的创新与扩展。

构建Prometheus:后端聚合如何支持千兆瓦级AI集群

Engineering at Meta
Engineering at Meta · 2026-02-09T17:00:33Z
安全、渐进式开源可观察性迁移指南

软件迁移不再漫长,借助开源工具可在数周内完成。许多组织采用开放标准架构,数据通过Prometheus和OpenTelemetry等工具流动。迁移步骤包括优先处理重要仪表板和警报,逐步引入新后端,并验证新系统的有效性。最终目标是实现可控、低成本的观察能力,避免未来的锁定和高昂费用。

安全、渐进式开源可观察性迁移指南

The New Stack
The New Stack · 2025-12-24T15:00:37Z
掌控你的可观察性:Supabase Metrics API

Supabase发布了增强的Metrics API文档,允许用户将数据库监控数据流入任何兼容Prometheus的观察工具。该API提供约200个Postgres性能和健康指标,支持Grafana、Datadog等平台,帮助用户监控关键指标如连接饱和、CPU和内存压力、磁盘I/O。用户可以设置警报,自动检测问题,确保数据库性能和稳定性。

掌控你的可观察性:Supabase Metrics API

Blog - Supabase
Blog - Supabase · 2025-12-16T07:00:00Z
What Projects I Follow Updated This Week - 20251205

每周五更新重要版本信息,不记录bug修复,涵盖Docker、Jellyfin、Prometheus等项目的最新版本链接。

What Projects I Follow Updated This Week - 20251205

bboysoul的博客
bboysoul的博客 · 2025-12-05T09:46:00Z
高效管理容器化应用:弹性 Linux 虚拟机工具的最佳选择 | 开源日报 No.807

Alertmanager 是 Prometheus 的告警管理工具,支持告警去重、分组、路由和灵活的通知配置,具备静默和抑制功能,避免重复通知,提升告警处理效率。

高效管理容器化应用:弹性 Linux 虚拟机工具的最佳选择 | 开源日报 No.807

开源服务指南
开源服务指南 · 2025-12-02T07:35:26Z

监控系统是运维的重要工具,主流开源系统包括Zabbix和Prometheus。Prometheus由前Google员工开发,适合新手和进阶者,文档涵盖安装、启动、查询和可视化,提供实战项目和学习资源。

【监控】监控系统看这一篇就够了!Zabbix、Prometheus等常见监控教程

运维派
运维派 · 2025-11-22T18:01:57Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码