小红花·文摘 - 小红花技术领袖俱乐部

NEXA-MOE：一种高效强大的AI，用于在资源紧张的情况下进行科学发现

NEXA-MOE：一种高效强大的AI，用于在资源紧张的情况下进行科学发现

DEV Community ·

本研究跟踪DeepSeek-R1发布100天后的复现研究，探讨监督微调和基于可验证奖励的强化学习的进展，揭示数据准备和方法设计的重要发现，推动推理语言模型的进一步探索与应用。

A Follow-Up Survey 100 Days After the Release of DeepSeek-R1: Replication Studies and New Directions for Reasoning Language Models

BriefGPT - AI 论文速递 ·