小红花·文摘

本研究探讨了如何通过自由文本提示引发语言模型的特定行为，提出了一种新方法，将目标行为映射到多样化输出提示，实现了100%的攻击成功率和85%的幻觉率。

Triggering Language Model Behavior through Investigator Agents

BriefGPT - AI 论文速递 ·

OpenAI正在开发一个名为“Strawberry”的新旗舰模型，以及一个名为“Orion”的GPT-4继任者。他们正在招聘一名技术内部风险调查员。“Strawberry”将在秋季发布，并将改进“Orion”。它可以生成合成数据，解决数学和编程问题，并协助开发OpenAI即将推出的Agent。“Strawberry”和“Orion”的详细信息尚未披露。

奥特曼招人查自家员工，“GPT-5”要来了：新旗舰模型曝光，“草莓”或将秋季上线

量子位 ·