机器之心 ·

啊！DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法？

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

研究团队发现，通过“递归式自我提升”方法，Transformer模型在多位数乘法上显著提高了准确度，解决了长度泛化问题。实验表明，经过自我改进后，模型在9位数乘法上几乎完美，10位数乘法表现良好。

🎯

❓

DeepSeek-R1在AIME 2024竞赛中达到了79.8%的准确度，而o3-mini更高，达到了87.3%。

递归式自我提升方法允许模型迭代生成训练数据，从而学习更困难的示例，解决了Transformer模型的长度泛化问题。

普通大模型在多位数乘法上表现不佳，主要是因为它们在训练时见过的序列长度有限，难以外推到更长的序列。

自我提升框架通过简单的过滤技术保持数据质量，使模型能够在没有修改基础架构的情况下实现极端的长度泛化。

DeepSeek-R1在9位数乘法上表现几乎完美，但在15位数乘法上仍出现错误，且计算时间较长。

研究团队认为，Transformer模型可以学习算法，并在更困难的数据上表现更好，未来有潜力解决更多复杂问题。

🏷️

用于编码代理的可维护性传感器
本文探讨了在AI生成代码背景下，如何利用传感器提高代码库的可维护性。作者分享了使用ESLint等静态分析工具的经验，强调监控维护性风险和自我修正的重要性。...
谷歌I/O 2026 直播博客：现场报道谷歌的主题演讲
谷歌I/O 2026大会将在加州举行，重点关注AI搜索、代理、编码和电子商务等未来趋势。谷歌需要突出Gemini，以与OpenAI的ChatGPT和Ant...
A free VPN you can trust, now built into Firefox
Update on May 19, 2026: Firefox’s free built-in VPN now supports location sel...
New in Firefox 151: VPN location selection, AI controls on mobile, and expanded Shake to Summarize support
Today, Firefox is rolling out updates across desktop and mobile that give you...
AI controls are here for Firefox mobile
Mobile browsing is personal. It’s the link you open from a group chat because...
索尼的1000X The Collexion耳机是对其标志性耳机的奢华而昂贵的庆祝
索尼推出了1000X The Collexion耳机，以庆祝其旗舰耳机系列十周年。该耳机注重奢华设计和舒适性，售价650美元，较XM6贵200美元。尽管音...