量子位 ·

开源大模型新王干翻GPT-4o，新技术可纠正自己幻觉，数学99.2分刷爆测试集

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

开源大模型Reflection 70B通过新训练技术实现自我纠正，击败其他模型，在数学基准测试中得分99.2%。Reflection 70B能回答错误问题，官方将发布更大的Reflection 405B。Reflection 70B使用Reflection-Tuning训练方法，能够在推理过程中纠正错误。模型由HyperWriteAI的CEO Mutt Shumer带领的小团队开发。

🎯

关键要点

开源大模型Reflection 70B通过新训练技术实现自我纠正，数学基准测试得分99.2%。
Reflection 70B能回答错误问题，表明其准确率并非来自记忆测试集。
官方将发布更大的Reflection 405B，预计性能将大幅优于Sonnet和GPT-4o。
Reflection 70B采用Reflection-Tuning训练方法，能够在推理过程中纠正自身错误。
模型基于Llama 3.1 70B Instruct，使用标准Llama聊天格式并引入特殊tokens。
模型的推理过程分为独立步骤，输出结构化结果。
Reflection 70B背后是一支小团队，由HyperWriteAI的CEO Mutt Shumer领导。
Mutt Shumer是一位连续创业者，曾创立多家AI和软件公司。

❓

延伸问答

Reflection 70B模型的主要创新是什么？

Reflection 70B模型的主要创新是采用Reflection-Tuning训练方法，能够在推理过程中自我纠正错误。

Reflection 70B在数学基准测试中的表现如何？

Reflection 70B在数学基准测试GSM8K中得分99.2%，超越了其他模型。

Reflection 70B的开发团队是谁？

Reflection 70B的开发团队由HyperWriteAI的CEO Mutt Shumer领导。

Reflection 70B如何处理错误问题？

Reflection 70B能够回答错误问题，表明其准确率并非来自记忆测试集，而是通过自我纠正实现的。

未来是否会有更强大的Reflection模型？

是的，官方将发布更大的Reflection 405B，预计性能将大幅优于现有模型。

Reflection 70B的推理过程是怎样的？

Reflection 70B的推理过程分为独立步骤，使用<thinking>和</thinking>标签输出推理，并在<output>标签内提供最终答案。

🏷️