实时互动网 ·

Nous Research 发布 Hermes 4：具有混合推理能力的开放权重 AI 模型系列

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

Nous Research发布的Hermes 4是一个开放权重模型系列，采用后训练技术，具备混合推理能力。核心组件DataForge通过有向无环图生成合成数据，显著提升推理样本质量。Hermes 4在多个基准测试中表现优异，展现了开源AI的潜力与中立性。

🎯

关键要点

Nous Research发布了Hermes 4，这是一个开放权重模型系列，基于Llama 3.1检查点，参数大小为14B、70B和405B。
Hermes 4采用后训练技术，实现了前沿级别的性能，并引入了混合推理能力。
核心组件DataForge通过有向无环图生成合成数据，显著提升推理样本质量。
Hermes 4在多个基准测试中表现优异，证明了开源AI的潜力与中立性。
DataForge通过图形生成合成数据，使用PDDL操作接口，自动创建复杂数据管道。
Hermes 4实施拒绝采样，创建了庞大的已验证推理轨迹库，确保模型学习稳健的推理模式。
研究团队解决了推理模型生成过长思维链的问题，通过监督微调阶段控制生成长度。
Hermes 4在多个基准测试中展现最佳性能，尤其在RefusalBench上表现突出。
训练利用192块NVIDIA B200 GPU，采用高效的打包和复杂的损失掩蔽机制。
Hermes 4标志着开源人工智能开发的重大进步，证明了前沿推理能力可以通过透明的方法实现。

🔎

延伸解读

混合推理能力的意义

Hermes 4引入的混合推理能力使得模型在面对复杂问题时能够灵活切换思维模式。这种能力不仅提升了模型的适应性，还为处理多样化任务提供了更高的效率，尤其在需要深入分析的场景中表现突出。

数据生成的创新

DataForge作为Hermes 4的核心组件，通过有向无环图生成合成数据，显著提高了推理样本的质量。这种基于图形的合成数据生成方法，打破了传统数据管理的局限，为模型训练提供了更丰富的样本来源，增强了模型的学习能力。

拒绝采样的优势

Hermes 4实施的拒绝采样策略，通过建立庞大的验证轨迹库，确保了模型学习到的推理模式更加稳健。这种方法不仅提高了推理的准确性，还有效避免了模型对特定解决方案的记忆，增强了其通用性。

长度控制的创新解决方案

Hermes 4在解决生成过长思维链的问题上取得了显著进展。通过监督微调阶段的创新方法，模型能够在适当的上下文长度内停止推理，避免了生成内容的冗长和不必要的复杂性，提高了输出的实用性和准确性。

❓

延伸问答

Hermes 4模型的主要特点是什么？

Hermes 4是一个开放权重模型系列，采用后训练技术，具备混合推理能力，参数大小为14B、70B和405B。

DataForge在Hermes 4中起什么作用？

DataForge是Hermes 4的核心组件，通过有向无环图生成合成数据，显著提升推理样本质量。

Hermes 4如何解决生成过长思维链的问题？

Hermes 4通过监督微调阶段控制生成长度，确保模型在恰好30,000个标记时停止推理。

Hermes 4在基准测试中的表现如何？

Hermes 4在多个基准测试中表现优异，尤其在RefusalBench上准确率高达57.1%，显著优于其他模型。

Hermes 4的训练使用了什么技术？

Hermes 4的训练利用了192块NVIDIA B200 GPU，采用高效的打包和复杂的损失掩蔽机制。

Hermes 4如何确保模型的中立性？

Hermes 4在保持透明度和中立对齐理念的同时，实现了顶尖性能，证明了开源方法的有效性。

🏷️