小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

可观测性是现代系统管理的重要概念,包含指标、日志、追踪、性能剖析和事件五大支柱。这些支柱帮助工程师理解系统状态和故障原因,强调系统设计的属性。通过有效的数据采集与分析,团队能够快速定位问题,优化系统性能,提升用户体验。

【可观测性工程】可观测性全景:Metrics、Logs、Traces、Profiles、Events 五大支柱

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了监控指标体系的设计,包括USE、RED、Golden Signals和业务KPI四种方法论。USE关注资源监控,RED关注请求处理,Golden Signals强调服务健康,业务KPI则衡量业务价值。文章强调建立完备指标体系的重要性,以避免监控盲区和告警疲劳,并提供了可直接应用的指标清单。

【可观测性工程】指标体系设计:USE、RED、Golden Signals 与业务 KPI

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了事件作为可观测性的重要支柱,强调其与日志的本质差异。事件是系统状态转移的关键数据,有助于快速定位事故根因。文章介绍了变更事件、基础设施事件和业务事件的分类,以及如何通过CloudEvents标准化事件模型。同时,讨论了Kubernetes事件API和事件流平台(如Argo Events、Keptn)的应用,强调事件在事故响应中的重要性,并提出“变更即根因”的方法论,以提高故障排查效率。

【可观测性工程】Events 与变更关联:CloudEvents、发布打点、K8s 事件

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文介绍了五种主要的度量指标存储方案:Prometheus、Thanos、Mimir、VictoriaMetrics和M3DB。重点分析了Prometheus的架构、数据模型及扩展方案,讨论了各方案的优缺点及适用场景,尤其是在高并发和多租户环境下的表现,并提供了一些工程实践中的常见问题及解决方案,以帮助用户选择合适的监控工具。

【可观测性工程】Metrics:Prometheus、VictoriaMetrics、Thanos、Mimir、M3

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

大模型系统的可观测性与传统微服务不同,需关注请求成本、延迟和正确性等多维度指标。文章提出四层观测模型:基础设施层、调用层、质量层和业务层,并推荐使用多种工具(如Langfuse、Helicone等)进行监控。可观测性应能快速定位问题并修复,以确保用户体验。

【大模型基础设施工程】23:LLM 可观测性

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了时序数据库的核心机制,包括Prometheus TSDB、InfluxDB TSM/TSI和VictoriaMetrics的写入特性与压缩算法。重点分析了Gorilla压缩算法的数学原理,以及时序数据的写入特性、查询优化和存储效率。最后对比了ClickHouse在Metrics存储中的适用场景,强调了不同数据库在写入吞吐、查询延迟和磁盘占用等方面的权衡与选择。

【可观测性工程】时序数据库内核:TSM、TSI、倒排索引与 Gorilla 压缩

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

现代可观测性是一个复杂的工程体系,涉及数据模型、传输协议和存储结构。本文针对SRE、平台工程师和架构师,探讨如何优化可观测栈、选择合适工具以及治理SLO与告警。内容包括可观测性基础、三大支柱、eBPF与内核可观测性,以及治理与工程落地,适合相关专业人士阅读。

可观测性工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

网络可观测性结合基础设施与业务语义,传统监控关注链路层指标,而微服务时代需解决应用层问题。eBPF技术支持在内核中捕获网络事件,实现L3、L4、L7分层监控。文章介绍了Cilium Hubble、Tetragon、Pixie和DeepFlow等网络可观测工具,强调TLS解密、HTTP/2解析等工程难点,并提供大流量场景下的选型建议。

【可观测性工程】网络可观测性:Cilium Hubble、Pixie、DeepFlow、Tetragon

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

监控与可观测性是不同的概念,监控关注预设问题和指标,而可观测性能够回答任意问题。传统的监控工具如Nagios和Zabbix逐渐被Prometheus和OpenTelemetry取代,后者支持更灵活的数据模型和多维度分析。可观测性强调记录足够的上下文信息,以便在故障发生时进行深入分析。随着微服务和复杂系统的普及,传统监控已无法满足需求,行业正向统一的可观测性平台发展。

【可观测性工程】可观测性 vs 监控:从 Zabbix/Nagios 到 OpenTelemetry 的二十年

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了大模型基础设施的必要性与发展历程,强调大模型的特点,如计算和内存密集、状态重、故障常态化及高成本。系列文章将涵盖从硬件到应用的五层模型,帮助工程师理解大模型的工程化过程及其挑战。未来的工程创新将是降低成本的关键,推理侧的重要性将超过训练侧。

【大模型基础设施工程】01:大模型基础设施全景 —— 训练、推理、RAG、Agent、观测

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

可观测性工程经历了从“每个后端一套SDK”到“一套信号采集标准+多个后端”的转变,OpenTelemetry(OTel)成为关键。OTel统一了链路追踪、指标和日志的模型与协议,解耦了采集层。文章讨论了OTel的架构、协议细节及在国内厂商的应用,强调了将OTel整合进现有可观测性体系的重要性。

【可观测性工程】OpenTelemetry 深入:SDK、Collector、语义约定与版本演进

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

性能剖析正成为生产可观测性的第四支柱,补充了指标、日志和链路。传统剖析方法在微服务时代逐渐失效,需采用持续性能分析。本文探讨了Go、Java、Python和Rust等编程语言的剖析工具及其应用,强调持续剖析的重要性和实践经验,尤其是在大型企业中的应用案例。

【可观测性工程】持续性能分析(Profiling):pprof、Pyroscope、Parca、async-profiler、JFR

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
Google ADK: 可观测性

文章讨论了Google ADK的可观测性,强调在智能体交互中识别性能瓶颈的重要性。可观测性有助于发现问题、止损、报告和改进。ADK支持多种可观测平台,简化集成过程,通过监控链路和性能数据提升系统的可用性和优化能力。

Google ADK: 可观测性

Ying’s Blog
Ying’s Blog · 2026-04-18T06:18:16Z
为何可观测性平台正成为AI审计工具

随着企业将AI工作负载从实验转向生产,监控和审计变得至关重要。传统监控无法满足需求,AI审计平台应运而生,帮助团队理解AI决策过程。企业需适应新的AI术语,确保合规性和安全性,同时优化AI生命周期,以应对复杂的操作挑战。

为何可观测性平台正成为AI审计工具

The New Stack
The New Stack · 2026-04-14T22:55:01Z
netcorepal-cloud-framework v3.3.0 发布:增强可观测性,补强时间处理与代码分析体验

netcorepal-cloud-framework v3.3.0 正式发布,增强了可观测性、时间字段处理、代码分析可视化体验及稳定性,新增中英文文档,支持 UTC 转换,修复可视化问题并更新依赖。建议用户关注链路追踪配置及代码分析效果。

netcorepal-cloud-framework v3.3.0 发布:增强可观测性,补强时间处理与代码分析体验

dotNET跨平台
dotNET跨平台 · 2026-03-31T00:01:57Z
观测数据显示伊朗互联网流量(国际)跌至0.1% 已持续断网超过72小时

伊朗自2月28日起因美国和以色列的军事行动切断国际互联网,流量降至正常的0.1%,已断网超过72小时。此举旨在防止敌对国家监视,部分民众通过星链系统访问互联网,但连接可能受到干扰。

观测数据显示伊朗互联网流量(国际)跌至0.1% 已持续断网超过72小时

蓝点网
蓝点网 · 2026-03-04T01:00:44Z
CNCF发布2026年北美可观测性峰会日程,云原生可观测性应用不断扩展

2026年北美可观测性峰会将于5月21-22日在明尼阿波利斯举行,聚焦云原生系统的可观测性标准与实践。活动将包括45场会议,讨论AI、模型上下文协议及DevOps中的可观测性整合。现已开放注册,早鸟票349美元,学术人员可享折扣。

CNCF发布2026年北美可观测性峰会日程,云原生可观测性应用不断扩展

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-02-18T19:41:59Z
AI 可观测性:公共部门任务弹性的支柱

AI 可观测性是公共部门任务弹性的关键,能够提升服务的可靠性和公众信任。通过数据网格和 AI 驱动的监控,机构可以实时识别问题,确保合规性,优化资源,从而降低 IT 中断成本。

AI 可观测性:公共部门任务弹性的支柱

Elastic Blog
Elastic Blog · 2026-02-12T08:00:00Z
TeleMate 宣布下一代 UC&C 可观测性平台正式上线

TeleMate于2026年1月20日发布了UC&C可观测性平台的新版本,增强了企业通信的可扩展性和实时可见性,支持混合云和多厂商环境。新版本可监控超过50万用户和100万设备,提高了故障排除效率,巩固了其在UC&C领域的领先地位。

TeleMate 宣布下一代 UC&C 可观测性平台正式上线

实时互动网
实时互动网 · 2026-01-21T03:38:10Z
NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹:一方面模仿专家,一方面被做价值评估预测」,到含仅使用RGB的点目标导航

本文介绍了NavDP(导航扩散策略),一种结合模仿学习和强化学习的端到端Transformer架构,旨在实现从仿真到现实的导航策略迁移。NavDP通过仿真数据生成高效的导航轨迹,克服传统方法的局限性,提升机器人在动态环境中的导航能力。研究者开发了高效的数据引擎,显著提高了数据生成效率,并构建了覆盖多样化场景的导航经验数据集。

NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹:一方面模仿专家,一方面被做价值评估预测」,到含仅使用RGB的点目标导航

结构之法 算法之道
结构之法 算法之道 · 2026-01-13T16:06:39Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码