量子位 ·

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

LMM-R1框架通过创新的两阶段训练策略，显著提升小型多模态模型的数学推理能力。第一阶段增强基础推理，第二阶段实现多模态泛化，减少对高质量数据的依赖。实验结果表明，该框架在推理密集型任务中表现优异，展现了多模态模型的应用潜力。

🎯

关键要点

LMM-R1框架通过两阶段训练策略提升小型多模态模型的数学推理能力。
第一阶段专注于基础推理增强，利用高质量纯文本数据。
第二阶段实现多模态泛化，避免对高质量多模态数据的依赖。
实验结果显示，LMM-R1框架在推理密集型任务中表现优异。
该框架的创新在于引入规则化奖励函数机制，降低训练成本。
研究团队成功将多模态模型的推理能力提升至工业级应用标准。
LMM-R1框架在几何推理和复杂路径规划任务中表现突出。
该框架已在GitHub建立独立技术生态，获得广泛关注。
团队计划继续推动多模态强化学习技术的应用与发展。

❓

延伸问答

LMM-R1框架的主要创新点是什么？

LMM-R1框架的主要创新点是引入了规则化奖励函数机制，并采用两阶段训练策略来提升小型多模态模型的数学推理能力。

LMM-R1框架的两阶段训练策略包括哪些内容？

第一阶段是基础推理增强，利用高质量纯文本数据；第二阶段是多模态泛化训练，将基础推理能力扩展到多模态领域。

LMM-R1框架在推理密集型任务中的表现如何？

实验结果显示，LMM-R1框架在推理密集型任务中表现优异，尤其在几何推理和复杂路径规划任务中显著超越其他大模型。

LMM-R1框架如何解决多模态领域的数据限制问题？

LMM-R1框架通过第一阶段利用丰富的高质量纯文本推理数据，避免了对昂贵的高质量多模态训练数据的依赖。

LMM-R1框架的训练成本是多少？

LMM-R1框架的训练成本仅需240元GPU，显著降低了训练开销。

LMM-R1框架的开源情况如何？

LMM-R1框架自2025年2月开源以来，迅速获得学术界关注，并在GitHub建立了独立技术生态，累计获得超过500+星标关注。

🏷️

继续阅读

偷梁换柱 — 解决『出境易暂不支持此应用。』
文章讨论了在鸿蒙系统上安装Vivaldi浏览器时遇到的“出境易暂不支持此应用”的问题。作者通过修改包名成功安装了浏览器，并分享了同步功能的解决方案，包括修...
内存短缺可能持续多年
全球内存短缺预计将持续到2030年，制造商到2027年底只能满足60%的需求。尽管三星、SK海力士和美光等主要内存制造商正在增加生产能力，但新设施主要生产...
野生作家观察：读马特创作、宁山哀点评的《盲目流动》
本文批评了马特的自出版游记《盲目流动》，认为尽管制作水平高，但内容平淡，缺乏个性，主要是机械的景点描述和历史资料，未能展现真实的旅行体验。作者指出马特的写...
读《陶庵梦忆》（二、锺山）
文章探讨了南京的锺山及朱元璋的孝陵，张岱通过细节描绘祭祀的荒诞与简陋，反映明朝的衰败，强调历史的无常与人事的无力，最后以“不得一盂麦饭”表达对王朝兴亡的感慨。
最近惦念 20260410
文章探讨了生命的意义与自我认知，强调对抗熵减的重要性。人类在快速生活中失去真实感，呼吁反思自我存在。通过放空思维，接近内心真实的自我，寻求更深层次的理解与觉知。
法官裁定特朗普政府在与ICE追踪应用的斗争中违反了第一修正案
伊利诺伊州联邦法官阿隆索裁定，特朗普政府在施压Facebook和苹果公司删除ICE追踪应用时违反了第一修正案。法官授予原告初步禁令，强调政府不能强迫私人公...