本文研究了发布gpt-oss的最坏情况风险,提出了恶意微调(MFT)概念,并在生物和网络安全领域进行评估。通过任务创建和强化学习环境训练gpt-oss,结果显示其在这两个领域的风险评估表现不佳,未能显著推动前沿发展。这些发现影响了模型的发布决策。
完成下面两步后,将自动完成登录并继续当前操作。