小红花·文摘

IBM专家解析大型语言模型的基准和最佳实践

IBM Blog ·

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

爱范儿 ·

开源大模型Reflection 70B通过新训练技术实现自我纠正，击败其他模型，在数学基准测试中得分99.2%。Reflection 70B能回答错误问题，官方将发布更大的Reflection 405B。Reflection 70B使用Reflection-Tuning训练方法，能够在推理过程中纠正错误。模型由HyperWriteAI的CEO Mutt Shumer带领的小团队开发。

开源大模型新王干翻GPT-4o，新技术可纠正自己幻觉，数学99.2分刷爆测试集

量子位 ·