小红花·文摘 - 小红花技术领袖俱乐部

Decoupled DiLoCo是一种新型分布式架构，旨在提高大规模AI模型训练的效率和韧性。通过将训练任务分散到多个计算单元，系统能够在硬件故障时继续学习，避免通信延迟。该方法成功训练了120亿参数的模型，速度比传统方法快20倍，并支持不同代硬件的混合使用，提升计算资源利用率。

解耦DiLoCo：分布式AI训练的新前沿，具备韧性

Google DeepMind Blog ·

Claude Code引入了延迟加载工具机制，以优化API请求效率。工具分为始终加载和延迟加载两类，仅在需要时加载完整架构，节省令牌成本。核心工具ToolSearch支持精确选择和关键词搜索，确保用户在会话中使用必要工具，提高系统灵活性和资源利用率。

Claude Code中的延迟工具加载

Finisky Garden ·

AI原生时代来临，商汤大装置如何重塑算力集群架构

量子位 ·

Network Firewall 部署小指南 (五) 使用辅助VPC端点简化NFW部署及运维管理

Network Firewall 部署小指南 (五) 使用辅助VPC端点简化NFW部署及运维管理

亚马逊AWS官方博客 ·

uForwarder：Uber高效事件驱动微服务的可扩展Kafka消费者代理

uForwarder：Uber高效事件驱动微服务的可扩展Kafka消费者代理

InfoQ ·

AI推理：如何实现吞吐翻倍、时延降90%与GPU资源节省26%？

AI推理：如何实现吞吐翻倍、时延降90%与GPU资源节省26%？

京东科技开发者 ·

一种轻量级进程间服务隔离方法实践

一种轻量级进程间服务隔离方法实践

京东科技开发者 ·

实现带有Nvidia GPU+Rootless Podman+Docker+Systemd+自动驱动注入支持的systemd nspawn容器

Kenvix's Blog ·

数据库性能优化终极指南

数据库性能优化终极指南

Redis Blog ·

Volcano 社区发布 Kthena 子项目 | 重新定义大模型智能推理

Volcano 社区发布 Kthena 子项目 | 重新定义大模型智能推理

华为云官方博客 ·

KAI调度器 - 一款Kubernetes原生调度器，专为大规模AI工作负载提供高效支持…

KAI调度器 - 一款Kubernetes原生调度器，专为大规模AI工作负载提供高效支持…

云原生 ·

活动预告丨上海创智/TileAI/华为/先进编译实验室齐聚上海，TVM/TileRT/PyPTO/Triton各显神通

活动预告丨上海创智/TileAI/华为/先进编译实验室齐聚上海，TVM/TileRT/PyPTO/Triton各显神通

HyperAI超神经 ·

基于 HAMi 实现亚马逊云科技 Trainium 与 Inferentia 核心级共享与策略性拓扑调度

基于 HAMi 实现亚马逊云科技 Trainium 与 Inferentia 核心级共享与策略性拓扑调度

亚马逊AWS官方博客 ·

Databricks的智能Kubernetes负载均衡

Databricks的智能Kubernetes负载均衡

Databricks ·

Fluid：我们如何构建无服务器计算

Fluid：我们如何构建无服务器计算

Vercel News ·

Kubernetes v1.33：就地Pod调整功能升级为Beta

Kubernetes v1.33：就地Pod调整功能升级为Beta

Kubernetes Blog ·

本研究提出了KAITIAN，一个新的分布式通信框架，旨在解决嵌入式人工智能系统中异构加速器的互操作性问题。KAITIAN通过统一抽象层和优化的通信库，提高了资源利用率和系统性能，实验表明训练时间缩短42%，同时保持模型准确性，增强了嵌入式AI应用的计算能力。

KAITIAN: A Unified Communication Framework for Enabling Efficient Collaboration Across Heterogeneous Accelerators in Embedded AI Systems

BriefGPT - AI 论文速递 ·

Kubernetes v1.33：节点存储容量评分用于动态配置（alpha）

Kubernetes v1.33：节点存储容量评分用于动态配置（alpha）

Kubernetes Blog ·

使用 SageMaker InferenceComponent 和 LiteLLM 构建自己的 MaaS 平台

使用 SageMaker InferenceComponent 和 LiteLLM 构建自己的 MaaS 平台

亚马逊AWS官方博客 ·

通过高效并行处理提升机器学习工作流性能

通过高效并行处理提升机器学习工作流性能

DEV Community ·