Unweight是一种无损压缩系统,能够将大型语言模型(LLM)的权重缩小15-22%,而不影响输出质量。该系统通过在快速的片上内存中解压权重,避免了主内存的延迟,从而提高推理效率。在Llama-3.1-8B模型上实现了约30%的多层感知器权重压缩,节省了约3GB显存,降低了推理成本。Unweight专为数据中心的H100 GPU优化,支持多种执行策略以适应不同工作负载。
NVIDIA在Graph500基准测试中以每秒410万亿边的速度获胜,使用8192个H100 GPU处理2.2万亿顶点和35万亿边,性能是其他方案的两倍,推动高性能计算的发展。
李飞飞的实验室推出了RTFM技术,能够实时生成3D世界模型。与传统模型不同,RTFM可以从一张图片生成可交互场景,并且仅需一块H100 GPU高效运行。该技术通过学习大量视频数据,具备复杂的视觉效果和空间记忆,允许用户在生成的世界中持续互动。
李飞飞推出的新模型RTFM可在单张H100 GPU上实时运行,具备持久性和3D一致性。该模型采用自回归扩散变换器架构,能够从2D图像生成新视图,支持无限时长的交互,推动生成式世界建模的发展。
由于需求超过供应,Nvidia的H100 GPU变得抢手和昂贵,成为首家市值万亿美元的公司。微软、Meta、OpenAI、亚马逊和谷歌等开始研发自己的AI处理器。Nvidia和AMD、英特尔等芯片制造商正在进行新一轮的AI芯片竞争。
Prime Intellect于11月22日宣布完成去中心化训练的10B模型INTELLECT-1,并开源相关资源。该模型在112台H100 GPU上训练,展示了去中心化训练的潜力。尽管汉语能力较弱,但整体获得AI社区积极反馈。未来,Prime Intellect计划扩大模型规模,推动开源AGI发展。
谷歌推出TPU v5p人工智能加速器,比之前版本快2.8倍,与英伟达的H100 GPU相媲美。TPU v5p提供4,800Gbps吞吐量和95GB高带宽内存。需要更详细的基准测试来确定与H100 GPU的速度。
完成下面两步后,将自动完成登录并继续当前操作。