小红花·文摘

LMM-R1框架通过创新的两阶段训练策略，显著提升小型多模态模型的数学推理能力。第一阶段增强基础推理，第二阶段实现多模态泛化，减少对高质量数据的依赖。实验结果表明，该框架在推理密集型任务中表现优异，展现了多模态模型的应用潜力。