小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

Decoupled DiLoCo是一种新型分布式架构,旨在提高大规模AI模型训练的效率和韧性。通过将训练任务分散到多个计算单元,系统能够在硬件故障时继续学习,避免通信延迟。该方法成功训练了120亿参数的模型,速度比传统方法快20倍,并支持不同代硬件的混合使用,提升计算资源利用率。

解耦DiLoCo:分布式AI训练的新前沿,具备韧性

Google DeepMind Blog
Google DeepMind Blog · 2026-04-22T10:20:03Z

Claude Code引入了延迟加载工具机制,以优化API请求效率。工具分为始终加载和延迟加载两类,仅在需要时加载完整架构,节省令牌成本。核心工具ToolSearch支持精确选择和关键词搜索,确保用户在会话中使用必要工具,提高系统灵活性和资源利用率。

Claude Code中的延迟工具加载

Finisky Garden
Finisky Garden · 2026-04-05T13:37:24Z
AI原生时代来临,商汤大装置如何重塑算力集群架构

商汤在AI原生时代重塑算力集群架构,推出AI算力池和虚拟集群技术,以提升资源利用率和扩缩容效率,推动国产推理基础设施升级,助力AI产业发展。

AI原生时代来临,商汤大装置如何重塑算力集群架构

量子位
量子位 · 2026-04-02T10:21:43Z
Network Firewall 部署小指南 (五) 使用辅助VPC端点简化NFW部署及运维管理

本文介绍了AWS Network Firewall的多端点功能,简化了网络安全架构设计与运维管理。通过将多个VPC关联到单一防火墙实例,降低了成本和运维复杂度,提高了资源利用率。

Network Firewall 部署小指南 (五) 使用辅助VPC端点简化NFW部署及运维管理

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-03-30T02:33:13Z
uForwarder:Uber高效事件驱动微服务的可扩展Kafka消费者代理

Uber工程团队推出了uForwarder,这是一个开源的Apache Kafka推送代理,旨在提升高吞吐量事件流的可扩展性和效率。uForwarder简化了消费者逻辑,集中管理偏移量,隔离工作负载,并提供内置延迟处理,解决了Uber内部Kafka部署的多个挑战,成为主要的Kafka消费者选项,提升了资源利用率和性能一致性。

uForwarder:Uber高效事件驱动微服务的可扩展Kafka消费者代理

InfoQ
InfoQ · 2026-02-23T15:00:00Z
AI推理:如何实现吞吐翻倍、时延降90%与GPU资源节省26%?

京东云推出云原生AI推理框架,解决传统推理系统的稳定性、资源利用率和性能瓶颈问题。该框架通过智能流量调度、自动弹性扩缩容和故障自愈机制,提升推理效率和资源利用率,短文吞吐提升超过120%,GPU资源节省约26%。

AI推理:如何实现吞吐翻倍、时延降90%与GPU资源节省26%?

京东科技开发者
京东科技开发者 · 2026-02-11T06:05:35Z
一种轻量级进程间服务隔离方法实践

本文探讨了在复杂的分布式微服务架构中,通过轻量级服务隔离方法保障系统稳定性。提出了三种方案:应用拆分、使用Hystrix进行服务隔离和轻量级进程间服务隔离。最终选择轻量级进程间服务隔离方案,因其易于实施且能快速见效,适合在大促中应用。通过合理的分组和配置管理,提升了系统的高可用性和资源利用率。

一种轻量级进程间服务隔离方法实践

京东科技开发者
京东科技开发者 · 2026-02-03T12:21:56Z
实现带有Nvidia GPU+Rootless Podman+Docker+Systemd+自动驱动注入支持的systemd nspawn容器

本文介绍了一种针对AI计算集群的系统级容器方案,解决了GPU透传和驱动安装复杂性的问题。该方案支持Nvidia GPU透传、自动驱动注入及systemd-nspawn管理,兼容Docker与Rootless Podman,简化了集群部署与运维,提高了资源利用率。

实现带有Nvidia GPU+Rootless Podman+Docker+Systemd+自动驱动注入支持的systemd nspawn容器

Kenvix's Blog
Kenvix's Blog · 2026-02-02T06:25:50Z
数据库性能优化终极指南

在生产环境中,数据库优化是解决性能瓶颈的关键。优化过程包括识别瓶颈、提升查询速度和资源利用率,重点在于连接池管理、I/O性能、查询执行和架构设计。合理配置连接池和索引能显著提高性能,同时监测资源使用和定期更新统计信息也很重要。

数据库性能优化终极指南

Redis Blog
Redis Blog · 2026-01-12T00:00:00Z
Volcano 社区发布 Kthena 子项目 | 重新定义大模型智能推理

Volcano推出Kthena,一个专为Kubernetes设计的高性能LLM推理调度系统,旨在提高GPU/NPU资源利用率,简化多模型管理,解决资源利用率低、延迟与吞吐量难以兼顾的问题,推动云原生AI生态发展。

Volcano 社区发布 Kthena 子项目 | 重新定义大模型智能推理

华为云官方博客
华为云官方博客 · 2026-01-05T02:04:58Z
KAI调度器 - 一款Kubernetes原生调度器,专为大规模AI工作负载提供高效支持…

KAI调度器是NVIDIA为Kubernetes开发的调度器,专为优化大规模AI工作负载而设计。它能够理解AI任务特性,提高资源利用率和调度质量,支持多GPU和多节点训练,适用于数据中心和云平台。

KAI调度器 - 一款Kubernetes原生调度器,专为大规模AI工作负载提供高效支持…

云原生
云原生 · 2025-12-06T02:46:31Z
活动预告丨上海创智/TileAI/华为/先进编译实验室齐聚上海,TVM/TileRT/PyPTO/Triton各显神通

随着AI模型规模的扩大,AI编译器成为硬件与应用之间的关键枢纽,提升计算性能和资源利用率。12月27日,第8期Meet AI Compiler技术沙龙将在上海举行,专家将分享软件栈设计、算子开发及性能优化等内容,探讨低延迟大模型推理和融合算子开发等技术。欢迎报名参与。

活动预告丨上海创智/TileAI/华为/先进编译实验室齐聚上海,TVM/TileRT/PyPTO/Triton各显神通

HyperAI超神经
HyperAI超神经 · 2025-12-03T06:55:01Z
基于 HAMi 实现亚马逊云科技 Trainium 与 Inferentia 核心级共享与策略性拓扑调度

亚马逊云科技的HAMi中间件通过支持多种加速设备(如Neuron芯片),实现了异构算力的统一管理与调度。其核心特性包括双重粒度共享和策略性拓扑调度,显著提升资源利用率并降低运维复杂度。HAMi v2.7.0深度集成Neuron芯片,优化调度策略,确保高效算力调度体验。

基于 HAMi 实现亚马逊云科技 Trainium 与 Inferentia 核心级共享与策略性拓扑调度

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-11-06T07:15:27Z
Databricks的智能Kubernetes负载均衡

在Databricks,我们开发了智能客户端负载均衡系统,优化Kubernetes中的服务间通信,解决了默认负载均衡的性能和可靠性问题。通过实时服务发现,实现了基于应用层的负载均衡,降低了尾延迟,提高了资源利用率,并支持更复杂的负载均衡策略。

Databricks的智能Kubernetes负载均衡

Databricks
Databricks · 2025-10-01T00:00:00Z
Fluid:我们如何构建无服务器计算

Fluid compute是一种高效的无服务器计算方法,结合主动CPU定价,客户可节省高达95%的成本。Vercel通过改进基础设施和安全传输协议,实现流式响应,优化资源利用率,支持Python等多种语言。

Fluid:我们如何构建无服务器计算

Vercel News
Vercel News · 2025-07-28T13:00:00Z
Kubernetes v1.33:就地Pod调整功能升级为Beta

Kubernetes v1.33正式将就地Pod调整功能升级为Beta,支持在运行中的Pod中动态调整CPU和内存资源,减少服务中断,提高资源利用率,增强了灵活性和稳定性,适用于状态应用和长时间运行的任务。

Kubernetes v1.33:就地Pod调整功能升级为Beta

Kubernetes Blog
Kubernetes Blog · 2025-05-16T18:30:00Z

本研究提出了KAITIAN,一个新的分布式通信框架,旨在解决嵌入式人工智能系统中异构加速器的互操作性问题。KAITIAN通过统一抽象层和优化的通信库,提高了资源利用率和系统性能,实验表明训练时间缩短42%,同时保持模型准确性,增强了嵌入式AI应用的计算能力。

KAITIAN: A Unified Communication Framework for Enabling Efficient Collaboration Across Heterogeneous Accelerators in Embedded AI Systems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z
Kubernetes v1.33:节点存储容量评分用于动态配置(alpha)

Kubernetes v1.33引入StorageCapacityScoring功能,通过节点存储容量信息优化Pod调度,支持选择存储容量最多或最少的节点,用户可配置节点优先级以提高资源利用率。

Kubernetes v1.33:节点存储容量评分用于动态配置(alpha)

Kubernetes Blog
Kubernetes Blog · 2025-04-30T18:30:00Z
使用 SageMaker InferenceComponent 和 LiteLLM 构建自己的 MaaS 平台

在GenAI时代,企业对模型即服务(MaaS)的需求上升,希望通过统一接口整合多种模型。客户利用高性能硬件提升资源利用率,采用Amazon SageMaker和LiteLLM构建灵活架构,以实现高效管理与创新。

使用 SageMaker InferenceComponent 和 LiteLLM 构建自己的 MaaS 平台

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-04-11T04:25:06Z
通过高效并行处理提升机器学习工作流性能

本文介绍了如何通过并行处理提升复杂机器学习工作流的性能。使用Map函数可实现数据集的并行预处理,而Flyte框架通过Kubernetes Pods自动分配负载。Union Actors的使用可以重用Pods,减少启动时间,从而显著降低执行时间并提高资源利用率。

通过高效并行处理提升机器学习工作流性能

DEV Community
DEV Community · 2025-04-09T11:40:02Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码