开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集
💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
开源大模型Reflection 70B通过新训练技术实现自我纠正,击败其他模型,在数学基准测试中得分99.2%。Reflection 70B能回答错误问题,官方将发布更大的Reflection 405B。Reflection 70B使用Reflection-Tuning训练方法,能够在推理过程中纠正错误。模型由HyperWriteAI的CEO Mutt Shumer带领的小团队开发。
🎯
关键要点
- 开源大模型Reflection 70B通过新训练技术实现自我纠正,数学基准测试得分99.2%。
- Reflection 70B能回答错误问题,表明其准确率并非来自记忆测试集。
- 官方将发布更大的Reflection 405B,预计性能将大幅优于Sonnet和GPT-4o。
- Reflection 70B采用Reflection-Tuning训练方法,能够在推理过程中纠正自身错误。
- 模型基于Llama 3.1 70B Instruct,使用标准Llama聊天格式并引入特殊tokens。
- 模型的推理过程分为独立步骤,输出结构化结果。
- Reflection 70B背后是一支小团队,由HyperWriteAI的CEO Mutt Shumer领导。
- Mutt Shumer是一位连续创业者,曾创立多家AI和软件公司。
➡️