OpenAI ·

评估开放权重大型语言模型的最坏情况前沿风险

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文研究了发布gpt-oss的最坏情况风险，提出了恶意微调（MFT）概念，并在生物和网络安全领域进行评估。通过任务创建和强化学习环境训练gpt-oss，结果显示其在这两个领域的风险评估表现不佳，未能显著推动前沿发展。这些发现影响了模型的发布决策。

🎯

🔎

恶意微调（MFT）概念的引入，旨在最大化gpt-oss在生物和网络安全领域的能力。然而，研究表明，尽管进行了针对性的训练，gpt-oss在这两个领域的表现仍然不佳。这提示我们，在追求模型能力的同时，必须谨慎评估其潜在的安全风险，避免可能的滥用情况。

研究结果显示，gpt-oss在生物风险和网络安全风险评估中未能显著推动前沿发展，这直接影响了模型的发布决策。未来在发布开放权重模型时，开发者需更加重视风险评估，以确保技术的安全性和可控性，避免对社会造成潜在危害。

在与其他模型的比较中，MFT gpt-oss的表现低于OpenAI o3模型，这表明开放权重模型在某些情况下可能无法与封闭权重模型竞争。这一发现强调了在选择和使用大型语言模型时，用户应关注模型的具体能力和适用场景，以做出更明智的决策。

❓

恶意微调（MFT）是一种通过微调模型以最大化其在特定领域（如生物和网络安全）能力的方法。

gpt-oss在生物风险评估中表现不佳，未能显著推动前沿发展。

在网络安全风险评估中，gpt-oss在解决CTF挑战时表现不如其他模型。

与封闭权重模型相比，MFT gpt-oss的表现低于OpenAI o3模型。

这些发现影响了模型的发布决策，并为未来开放权重发布的危害评估提供了指导。

与开放权重模型相比，gpt-oss在生物能力上可能略有提升，但未能实质性推进前沿。

🏷️