小红花·文摘

苹果跳过M6 Pro和Max直接推M7 AI芯片，2027年见分晓

极道 ·

华为自研HBM性能翻倍！昇腾950DT芯片8月提前问世，DeepSeek将优先部署

TechWeb 全站精华 ·

NVIDIA Vera CPU在竞争中展现强劲实力

NVIDIA Blog ·

机器学习从业者的推测解码指南

MachineLearningMastery.com ·

本地 NVMe 存储高达 22.8TB 的 Amazon EC2 C8id、M8id 和 R8id 实例正式发布

亚马逊AWS官方博客 ·

全新通用型 Amazon EC2 M8a 实例现已推出

亚马逊AWS官方博客 ·

搭载M5芯片的MacBook Pro外观和配置与前代相似，主要在NPU性能和内存带宽上有所提升。M5在CPU和GPU性能上略有提升，NPU性能显著增强，适合对性能有需求的用户。

AI 时代的新征程：M5 款 MacBook Pro 简谈

少数派 ·

CuTe的平铺复制技术用于高效的数据复制，主要在全局内存与共享内存之间进行向量化复制。文章介绍了TiledCopy和ThrCopy模板类，利用线程索引对源和目标张量进行分区，从而实现高效的平铺复制，提升内存带宽利用率，适合处理大规模张量。

CuTe平铺复制

Lei Mao's Log Book ·

文章探讨了原始Macintosh的屏幕分辨率为何为512×342。安迪·赫茨菲尔德指出，内存带宽是关键因素，限制了64K内存的使用。额外的内存带宽使得显示分辨率得以提升。设计时考虑了图形用户界面和打印效果，最终选择了这一分辨率以优化性能和成本。

为什么原始的Macintosh屏幕分辨率是512×342，而不是人们可能预期的512×384

程序师 ·

在首届云原生地理空间大会上，我分享了关于GPU加速的演讲，重点探讨地理空间工作负载及GPU优化的潜力。演讲展示了GPU的快速计算能力，讨论了I/O与计算的关系，强调高效数据处理和内存带宽的重要性。期待与更多人交流GPU加速的经验。

云原生地理空间大会（2025）

datasframe ·

RISC-V 向量内存突破：速度提升 2 倍，功耗降低 30%

DEV Community ·

演讲：释放Llama的潜力：基于CPU的微调

InfoQ ·

屋顶线性能模型通过比较应用性能与机器能力，识别软件实现和架构设计中的瓶颈。模型中，x轴表示算术强度，y轴表示计算性能。应用性能受内存带宽和处理器峰值性能限制，低算术强度时受内存限制，高算术强度时受处理器限制。实际应用性能通常低于理论峰值，可能因内存带宽或处理器未充分利用。

屋顶线性能模型

Lei Mao's Log Book ·

本研究提出了PRESERVE框架，旨在解决大语言模型推理中的内存带宽瓶颈和设备间通信开销问题。通过优化内存读取和集体通信，该框架在商业AI加速器上实现了最高1.6倍的加速，显著提高了性能和成本效率。

PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving

BriefGPT - AI 论文速递 ·

Intel UHD Graphics 730上的OpenCL性能评估

DEV Community ·

选择本地大模型时，设备限制至关重要。文章讨论了模型推理的基本概念、计算过程及内存需求，强调内存带宽对推理速度的影响。建议选择性能与性价比兼具的设备，如M4 Mac mini或配备NVIDIA显卡的PC，以满足不同需求。

本地大模型之路（二）：了解模型能力与性能需求，让硬件选购恰到好处

少数派 ·

独享MRDIMM有多强？至强6性能核处理器的内存二三事

机器之心 ·

本文介绍了多种提高大型语言模型（LLMs）效率的新方法，包括SampleAttention、共享注意力、HiP、SparQ Attention和系统2关注（S2A）。这些方法通过优化注意力机制、降低时间和空间复杂度、减少内存带宽需求等手段，显著提升了模型的推理性能和准确性。

利用异构上下文分片在注意力头之间进行高效的 LLM 训练和服务

BriefGPT - AI 论文速递 ·

流量一样但为什么CPU使用率差别很大

plantegg ·

苹果M3 Pro的内存带宽比M1/M2 Pro少四分之一，苹果的内存选项变得复杂，消费者需谨慎选择。

苹果 M3 系列 MacBook Pro 的内存带宽和内存容量问题

苹果fans博客 ·