bluespec-lsp是一个基于Rust的AI自主开发项目,旨在为Bluespec SystemVerilog提供更好的IDE支持,具备常量自动展开和代码导航等功能。项目欢迎Rust社区和硬件工程师参与,并将于2026年4月30日举办线上Talk,介绍项目详情及入门问题。该项目是open-rdma生态的一部分,关注RDMA软件栈的开发。
英特尔与忆联推出企业级网络存储解决方案,结合RDMA与NVMe技术,提升AI训练与推理效率。忆联UH812a SSD具备高带宽、低延迟,顺序读写速度可达14900 MB/s,并支持多种容量选择。双方将继续深化合作,探索存储最佳实践。
在PD分离部署中,异构显卡会增加跨机通信压力。通过RDMA设备加速kvcache传输,降低FTTL。安装驱动后可选择标准或兼容模式,兼容模式支持更多应用。性能测试显示eRDMA速度接近25.0 Gbps。配置和测试过程包括安装工具、查看设备信息及启动容器环境。
云计算正在经历架构转变,传统的“无共享”设计效率低,无法满足现代应用的弹性需求。Murat Demirbas指出,行业正快速采用解耦架构,以独立扩展计算和存储,提升故障隔离和操作简化。新技术如RDMA和CXL推动了这一转变,促进了数据库设计的创新。
RDMA技术优化了兼容S3的存储,提升了NVIDIA网络和计算效率,降低了企业AI工作负载的存储成本。预计到2028年,企业年产生近400泽字节数据,其中90%为非结构化数据。RDMA加速对象存储,提供更高吞吐量和更低延迟,支持AI训练和推理,助力企业灵活运行AI工作负载。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
GPU 是人工智能的核心,但在大规模训练中,网络通信速度限制了性能。RDMA 和 GPUDirect 技术通过绕过 CPU 实现 GPU 直接通信,降低延迟。InfiniBand 性能高但成本高,RoCEv2 更经济灵活,适合现有以太网环境。选择应基于预算和性能需求。
本文介绍了Infiniband RDMA编程,作者为Insu Jang,提供了相关代码和资源链接,适合对高性能计算感兴趣的读者。
RDMA教程介绍了异步队列、单边和双边操作,以及传输层(如InfiniBand和以太网)。使用libverbs API进行连接和数据传输,涉及队列对和完成队列等概念。
DeepSeek于2025年2月24日至28日举办“开源周”,发布Fire-Flyer文件系统(3FS),该系统优化了SSD和RDMA网络,支持AI训练与推理,提供高达6.6 TiB/s的读取吞吐量,简化数据管理,提升数据访问效率,适用于大规模集群。
在PD分离中,Prefill实例通过RDMA Write和GDR将数据写入Decode实例,使用阿里云的Barex库实现异步批量写入以确保数据完整性。讨论了GDR的细节及NCCL实现,强调内存顺序和ACK机制的重要性,并提出通过RDMA read确认数据写入完成的解决方案。
在测试NFS Over RDMA性能时,4M文件的读取速度达到45GB/s,远超磁盘的6GB/s。NFS Over RDMA通过减少数据拷贝和CPU占用,实现更高的吞吐量和更低的延迟,适合高性能计算和大规模存储。
在测试NFS Over RDMA性能时,4M文件的读取速度达到45GB/s,远超磁盘的6GB/s。NFS Over RDMA通过减少数据拷贝和CPU负担,实现更高的吞吐量和更低的延迟,适合高性能计算和大规模存储。
本文介绍了3FS的关键技术,包括Direct IO与硬件直接交互、RDMA实现低延迟数据传输、CRAQ处理读写请求、MGMTD管理集群、Meta存储元数据以及Storage服务管理SSD。客户端可通过FUSE或USRBIO接口使用,存储块分配基于文件大小。
本文介绍了NFS Over RDMA的配置与性能测试,结果显示其在大文件和小文件的性能均优于传统NFS,尤其在读取大文件时表现突出。同时,文章探讨了RDMA的缓存机制对性能的影响。
作者从围城哥哥那里领养了一套HP 544+ FLR网卡,经过调试和配置,成功实现RDMA网卡的直连和高速传输。文章分享了安装、配置过程及必要的软件包、固件刷写和网卡模式切换等步骤,供后续用户参考。
DeepSeek发布了新开源的并行文件系统3FS,利用SSD和RDMA网络实现高达6.6TiB/s的读取吞吐量,显著提升AI数据处理效率,简化了分布式应用开发,支持大规模训练和推理,设定了新的性能基准。
DeepSeek 开源了 3FS(Fire-Flyer 文件系统),这是一种高性能并行文件系统,利用 SSD 和 RDMA 网络加速数据访问。在 180 节点集群中实现了 6.6 TiB/s 的读取吞吐量,支持多种 AI 应用场景,推动了 AI 数据处理的进步。
本文介绍了如何配置高性能NFS存储解决方案,使用xiRAID RAID引擎、RDMA和XFS文件系统,适用于数据密集型工作负载,旨在实现高吞吐量和低延迟,特别适合AI、HPC和实时媒体渲染场景。文章详细说明了RAID设置、XFS文件系统创建及NFS服务器和客户端的配置步骤,以确保最佳性能。
RDMA(远程直接内存访问)是一种减少网络延迟的技术,允许跨节点直接内存传输。与TCP/IP和DMA相比,RDMA具有更低的CPU占用和延迟。主要实现方式包括InfiniBand、iWARP和RoCE,广泛应用于高性能计算和云计算。Ascend平台的RDMA依赖于RoCE网卡,提供多种配置和检测命令。
完成下面两步后,将自动完成登录并继续当前操作。