NVIDIA Blog ·

全面开放：NVIDIA加速Meta Llama 3的推理

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

Meta和NVIDIA合作开发了Meta Llama 3，这是一个优化在NVIDIA GPU上运行的开放式大型语言模型（LLM）。该模型在一个由24,576个NVIDIA H100 Tensor Core GPU组成的计算机集群上进行了训练，并可在云端、数据中心、边缘和个人电脑上使用。企业可以使用NVIDIA NeMo对Llama 3进行数据微调，并使用NVIDIA Triton Inference Server部署自定义模型。Llama 3还可在NVIDIA Jetson Orin上运行，用于机器人和边缘计算设备。NVIDIA致力于优化社区软件并推动AI透明度。

🎯

关键要点

Meta与NVIDIA合作开发了Meta Llama 3，这是一个优化在NVIDIA GPU上运行的开放式大型语言模型。
Llama 3在由24,576个NVIDIA H100 Tensor Core GPU组成的计算机集群上进行了训练。
Llama 3可在云端、数据中心、边缘和个人电脑上使用。
企业可以使用NVIDIA NeMo对Llama 3进行数据微调，并使用NVIDIA Triton Inference Server部署自定义模型。
Llama 3还可在NVIDIA Jetson Orin上运行，用于机器人和边缘计算设备。
NVIDIA致力于优化社区软件并推动AI透明度。
Llama 3的最佳实践部署需要平衡低延迟、良好的阅读速度和优化的GPU使用，以降低成本。
单个NVIDIA H200 Tensor Core GPU在初步测试中生成约3,000个tokens/秒，支持约300个用户同时使用。
NVIDIA承诺优化社区软件，促进AI透明度，并让用户广泛分享AI安全和韧性方面的工作。

❓

延伸问答

Meta Llama 3是如何优化在NVIDIA GPU上运行的？

Meta Llama 3在由24,576个NVIDIA H100 Tensor Core GPU组成的计算机集群上进行了训练，并进行了网络、软件和模型架构的调优。

企业如何使用NVIDIA NeMo对Llama 3进行微调？

企业可以使用NVIDIA NeMo对Llama 3进行数据微调，并利用NVIDIA Triton Inference Server部署自定义模型。

Llama 3可以在哪些设备上运行？

Llama 3可以在云端、数据中心、边缘设备和个人电脑上运行，还可以在NVIDIA Jetson Orin上用于机器人和边缘计算。

NVIDIA H200 Tensor Core GPU的性能如何？

单个NVIDIA H200 Tensor Core GPU在初步测试中生成约3,000个tokens/秒，支持约300个用户同时使用。

部署Llama 3时需要考虑哪些最佳实践？

最佳实践包括平衡低延迟、良好的阅读速度和优化的GPU使用，以降低成本。

NVIDIA在推动AI透明度方面做了哪些努力？

NVIDIA致力于优化社区软件，促进AI透明度，并让用户广泛分享AI安全和韧性方面的工作。

🏷️

继续阅读

Meta推出了自己的AI生成点击诱饵新闻推送
Meta推出了一个AI生成的点击诱饵新闻功能，用户可以在Meta AI应用中查看这些内容。由于内容的质量和真实性受到质疑，Meta决定停止这一功能。
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
首尔的目标：NVIDIA与韩国如何共同构建AI的未来
NVIDIA创始人兼首席执行官黄仁勋访问韩国，强调AI供应链的重要性，并指出韩国在机器人和物理AI领域的潜力。他认为韩国是AI和游戏的中心，未来将有更多投资机会。
谷歌与SpaceX达成3年AI算力合作谷歌将每月支付9.2亿美元使用孟菲斯C1数据中心
谷歌与SpaceX达成合作，谷歌每月支付9.2亿美元使用SpaceX孟菲斯数据中心的11万台英伟达GPU，合作期为2026年10月至2029年6月。同时，...
这是你的笔记本电脑……在人工智能时代
在开发者大会上，大型科技公司强调人工智能将改变工作方式。Nvidia的黄仁勋介绍了新型笔记本电脑的使用方式。尽管AI产品不断涌现，人们仍在思考这些变化的必...
与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...