本研究探讨了如何通过自由文本提示引发语言模型的特定行为,提出了一种新方法,将目标行为映射到多样化输出提示,实现了100%的攻击成功率和85%的幻觉率。
OpenAI正在开发一个名为“Strawberry”的新旗舰模型,以及一个名为“Orion”的GPT-4继任者。他们正在招聘一名技术内部风险调查员。“Strawberry”将在秋季发布,并将改进“Orion”。它可以生成合成数据,解决数学和编程问题,并协助开发OpenAI即将推出的Agent。“Strawberry”和“Orion”的详细信息尚未披露。
完成下面两步后,将自动完成登录并继续当前操作。