标签

 集群 

相关的文章:

本列表汇集了关于集群技术的多篇文章,涵盖从部署、监控到管理的最佳实践,助力您深入理解和应用集群架构。

MinIO 集群部署

部署一个MinIO集群,个人记录。

本文简要介绍了部署MinIO集群的步骤,建议使用至少4个节点,最好6个,并确保时间同步。部署前需确定拓扑结构,避免动态添加节点。配置HAProxy进行负载均衡,禁用IPv6,设置hosts和SystemD配置文件,最后启动MinIO服务。

MinIO 集群部署
原文中文,约2400字,阅读约需6分钟。发表于:
阅读原文

纯配时效服务-双Redis集群设计

纯配时效服务作为物流下单环节中计算时效的重要组成部分,直接决定了下单的成功与否。其性能与稳定性至关重要,因为它们直接影响整个物流下单系统的运行效率及客户满意度。一个高效且稳定的纯配时效服务能够确保预计送达时间准确无误地展示给用户,从而提升客户体验和信任度。反之,若纯配时效服务出现故障或延迟,可能会导致订单处理延误,甚至影响客户的业务运营。因此,在设计和维护纯配时效服务时,必须确保其具备高可靠...

纯配时效服务是物流下单的关键,影响订单成功率和客户满意度。通过Redis数据同步提升读取速度,减轻数据库负担。双机房和双集群设计确保服务稳定性和数据一致性,增强容灾能力。逻辑删除机制保障数据安全,防止数据永久丢失。

原文中文,约2100字,阅读约需5分钟。发表于:
阅读原文
原文中文,约3700字,阅读约需9分钟。发表于:
阅读原文

Kubernetes监控后端2.2:通过新的警报和记录规则提升集群可观察性

We’re excited to announce version 2.2.0 of the backend for our Kubernetes Monitoring solution in Grafana Cloud is now available. The app’s backend is supported by kubernetes-mixin, an open source...

Grafana Cloud发布Kubernetes监控解决方案2.2.0版本,改进了警报和记录规则,增强了集群可观察性,新增关键场景警报,优化现有警报以减少误报,并支持非标准工作负载类型。新版本提升了数据质量和兼容性,适用于各种规模的集群。

Kubernetes监控后端2.2:通过新的警报和记录规则提升集群可观察性
原文英文,约900词,阅读约需3分钟。发表于:
阅读原文

K8s集群etcd磁盘更换

在 Kubernetes 生产环境中更换 etcd 节点的磁盘是一个高风险操作,需谨慎执行。什么情况需要更换磁盘?磁盘性能不足,如机械盘升级到 SSD磁盘硬件存在问题,影响稳定性ETCD 对磁盘性能要求非常敏感,强烈建议使用 SSD 且独立挂盘。如果有更高性能要求,可以选择分离 snapshot(快照文件)/wal(预写日志)的目录,使用两块盘分离 IO...

在Kubernetes中更换etcd节点磁盘时,应谨慎操作,建议使用独立挂载的SSD。更换前需备份数据,确保集群健康,逐个节点更换并验证恢复状态。同时注意磁盘挂载配置和灾难恢复预案,以防意外停机。

原文中文,约4000字,阅读约需10分钟。发表于:
阅读原文

基于 Amazon SageMaker 有状态路由优化大规模推理集群下的 KV Cache 复用方案

本文基于 Amazon SageMaker 的 Stateful Session(有状态会话路由)机制,通过唯一会话 ID 确保同一会话的所有请求路由到同一实例,从而在分布式环境下实现有效的 KV 缓存复用。

随着大语言模型(LLMs)的普及,高效部署成为一大挑战。KV Cache通过重用计算结果提升推理效率,但在大规模集群中,随机负载均衡影响缓存复用。Amazon SageMaker的有状态会话路由机制解决了这一问题,确保相似请求路由到同一节点,从而降低延迟,提高系统性能。

基于 Amazon SageMaker 有状态路由优化大规模推理集群下的 KV Cache 复用方案
原文中文,约8200字,阅读约需20分钟。发表于:
阅读原文
发表于:
阅读原文

使用kubectl-ai管理你的k8s集群

简介 kubectl-ai 最大的优势在于,当集群出现告警时,你可以直接用它分析告警原因。如果你有能力和预算,完全可以将 kubectl-ai 集成到告警系统中,实现自动化分析和响应。

kubectl-ai 是为 Kubernetes 用户设计的 AI 插件,能够将自然语言转换为 kubectl 命令,帮助用户高效管理集群,自动分析告警,降低使用门槛,提高运维效率。

使用kubectl-ai管理你的k8s集群
原文中文,约1000字,阅读约需3分钟。发表于:
阅读原文

使用kubectl-ai管理您的Kubernetes集群

Introduction The biggest advantage of kubectl-ai is that when an alert occurs in your cluster, you can use it directly to analyze the cause. If you have the capability and budget, you can even...

kubectl-ai是为Kubernetes用户设计的AI助手插件,能够将自然语言转换为kubectl命令,提升集群管理效率。它支持自动分析警报原因,并可与警报系统集成,实现自动响应。

使用kubectl-ai管理您的Kubernetes集群
原文英文,约200词,阅读约需1分钟。发表于:
阅读原文

通过 ODCR 和 Prioritized Allocation Strategy 构建高效、经济的 EMR 集群(一)

本文通过实际场景,详细介绍了 EMR 集群创建与扩缩容时的两种策略:为普通集群使用 Open ODCR 实现成本与资源的平衡,为核心任务集群应用 Targeted ODCR 确保效率与可靠性。文中提供了完整配置示例供您参考。

Amazon EMR 是一个托管的大数据处理平台,支持 Apache Hadoop 和 Spark。用户可以通过按需容量预留(ODCR)灵活预留资源,以确保在高需求时段(如促销季)有足够的资源供应。ODCR 分为 Open 和 Targeted 两种模式,分别适用于普通集群和核心任务集群,从而优化成本和提高效率。本文介绍了如何配置 EMR 集群以实现资源保障和成本优化。

通过 ODCR 和 Prioritized Allocation Strategy 构建高效、经济的 EMR 集群(一)
原文中文,约16300字,阅读约需39分钟。发表于:
阅读原文