实时互动网 ·

NVIDIA AI 发布 ProRLv2：通过扩展强化学习 RL 推进语言模型推理

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

ProRLv2是NVIDIA最新的强化学习版本，旨在提升大语言模型的推理能力。通过将训练步数从2000增加到3000，ProRLv2显著改善了模型在数学、编码和逻辑任务上的表现，体现了持续训练和正则化对学习和泛化能力的影响。

🎯

❓

ProRLv2旨在提升大语言模型的推理能力。

通过将训练步数从2000增加到3000，ProRLv2显著改善了模型在数学、编码和逻辑任务上的表现。

ProRLv2采用了REINFORCE++-Baseline算法、KL散度正则化、解耦剪辑和动态采样等技术。

基准测试显示数学平均通过率提高14.7%，编码提高13.9%，逻辑谜题提高54.8%。

ProRLv2通过持续的RL训练和正则化，能够扩展LLM的学习和泛化能力。

更长的训练时间带来持续的改进，特别是在基础模型表现不佳的任务上。

🏷️

NVIDIA与微软合作推出统一的AI部署解决方案，涵盖Windows设备、云端及本地环境
NVIDIA与微软合作推出统一的AI部署解决方案，支持Windows设备、Azure云和本地环境。开发者可通过RTX Spark和DGX Station在...
NVIDIA Jetson将代理AI引入物理世界
NVIDIA在COMPUTEX发布了JetPack 7.2和NemoClaw，推动代理AI在物理世界的应用。Jetson平台支持机器人和工业自动化，提供高...
以开放为设计理念：NVIDIA与DigitalOcean如何构建始终在线的自主时代技术栈
生成式人工智能的增长不仅依赖于专有模型，开源AI也在重塑开发者生态。NVIDIA与DigitalOcean合作开发开放模型，如NVIDIA Nemotro...
Frontier Tuning：教AI像您一样工作
微软在Build大会上推出了Frontier Tuning，这是一种通过强化学习使AI适应企业数据和流程的新方法。该系统在合规边界内运行，能够根据企业的独...
工业软件领袖利用NVIDIA NemoClaw构建安全的自主AI工程师
在台北GTC大会上，NVIDIA展示了NemoClaw，旨在帮助工业软件公司构建自主AI工程师，显著缩短仿真工作时间。这些AI工程师通过自动化设计、仿真和...
微软推出了高通无法实现的迷你Surface开发盒
微软推出了新的Surface RTX Spark开发盒，专为本地AI开发设计，搭载Nvidia的Arm架构RTX Spark芯片，具有128GB统一内存，...