啊!DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法?

啊!DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法?

💡 原文中文,约3500字,阅读约需9分钟。
📝

内容提要

研究团队发现,通过“递归式自我提升”方法,Transformer模型在多位数乘法上显著提高了准确度,解决了长度泛化问题。实验表明,经过自我改进后,模型在9位数乘法上几乎完美,10位数乘法表现良好。

🎯

关键要点

  • 普通大模型在数学能力上表现不佳,尤其是在多位数乘法上。
  • DeepSeek-R1模型在AIME 2024竞赛中取得79.8%的准确度,o3-mini更是达到了87.3%。
  • 邓云天的实验显示,o1模型在9位数乘法后准确度下降,GPT-4o在4位数时表现不佳。
  • DeepSeek-R1在9位数乘法上表现良好,但在15位数乘法上仍然出现错误。
  • 微软研究院的Dimitris Papailiopoulos团队提出了'递归式自我提升'方法,解决了Transformer模型的长度泛化问题。
  • 自我提升框架允许模型迭代生成训练数据,学习更困难的示例。
  • 研究表明,简单的过滤技术可以保持数据质量,实现极端的长度泛化。
  • 自我提升不仅限于长度泛化,还能实现从易到难的泛化。
  • 实验结果显示,经过自我提升,模型在9位数乘法上几乎完美,10位数乘法表现良好。
  • 研究团队认为,Transformer模型可以学习算法并在更困难的数据上表现更好。
➡️

继续阅读