小红花·文摘 - 小红花技术领袖俱乐部

Unweight是一种无损压缩系统，能够将大型语言模型（LLM）的权重缩小15-22%，而不影响输出质量。该系统通过在快速的片上内存中解压权重，避免了主内存的延迟，从而提高推理效率。在Llama-3.1-8B模型上实现了约30%的多层感知器权重压缩，节省了约3GB显存，降低了推理成本。Unweight专为数据中心的H100 GPU优化，支持多种执行策略以适应不同工作负载。

Unweight：如何在不牺牲质量的情况下将大型语言模型压缩22%

The Cloudflare Blog ·

NVIDIA H100 GPU在CoreWeave的AI云平台上实现Graph500基准测试的破纪录表现

NVIDIA H100 GPU在CoreWeave的AI云平台上实现Graph500基准测试的破纪录表现

NVIDIA Blog ·

李飞飞世界模型大更新！实时生成 3D 世界，只要一块 GPU

李飞飞世界模型大更新！实时生成 3D 世界，只要一块 GPU

爱范儿 ·

李飞飞推出的新模型RTFM可在单张H100 GPU上实时运行，具备持久性和3D一致性。该模型采用自回归扩散变换器架构，能够从2D图像生成新视图，支持无限时长的交互，推动生成式世界建模的发展。

李飞飞发布全新世界模型，单GPU就能跑！

量子位 ·

芯片竞赛：微软、Meta、谷歌与Nvidia争夺AI芯片霸主地位

芯片竞赛：微软、Meta、谷歌与Nvidia争夺AI芯片霸主地位

The Verge ·

美欧亚三洲开发者联手，全球首个组团训练的大模型来了，全流程开源

美欧亚三洲开发者联手，全球首个组团训练的大模型来了，全流程开源

机器之心 ·

[译] Meta/Facebook 超大规模 AI/GPU 基础设施设计（2024）

[译] Meta/Facebook 超大规模 AI/GPU 基础设施设计（2024）

ARTHURCHIAO'S BLOG ·

谷歌推出TPU v5p人工智能加速器，比之前版本快2.8倍，与英伟达的H100 GPU相媲美。TPU v5p提供4,800Gbps吞吐量和95GB高带宽内存。需要更详细的基准测试来确定与H100 GPU的速度。

谷歌最新AI芯片训练大模型速度快2.8倍

极道 ·