NEXA-MOE是一种高效的混合专家模型,参数仅1.1亿,能够在物理、生物和材料科学领域进行假设生成和方法设计。其模块化架构通过智能路由优化资源使用,在有限硬件上实现卓越性能,展示了在资源受限环境中构建高效AI系统的可能性。
本研究跟踪DeepSeek-R1发布100天后的复现研究,探讨监督微调和基于可验证奖励的强化学习的进展,揭示数据准备和方法设计的重要发现,推动推理语言模型的进一步探索与应用。
完成下面两步后,将自动完成登录并继续当前操作。