大规模强化学习显著提升了语言模型的性能。新模型QwQ-32B拥有320亿参数,性能与6710亿参数的DeepSeek-R1相当。通过冷启动数据和多阶段训练,QwQ-32B在数学和编程等任务上持续提升,展示了强化学习在预训练模型中的有效性。
本研究提出了一种高效的一周期结构剪枝框架,旨在解决多阶段训练中的高计算成本和性能下降问题。通过优化子网络搜索,该方法在多个数据集上实现了先进的准确率,并提高了训练效率。
本研究提出了DeepSeek-R1及其无监督预训练版本DeepSeek-R1-Zero,旨在提升大型语言模型的推理能力。通过多阶段训练,DeepSeek-R1在推理任务上表现优异,解决了可读性和语言混合等问题。
大型语言模型(LLMs)在医疗领域具有巨大潜力,但也面临挑战。研究提出了一种多阶段训练方法,结合持续预训练和微调,显著提升了医学LLM的性能。新开发的开源医学语言模型MEDITRON在多个医学测试中表现优异,尤其在多语言医学问答基准上,展现了与GPT-4相当的能力。这些研究强调了数据集质量和多样性对模型性能的重要性。
本文介绍了IndoorDepth,一种用于室内深度自动估计的自我监督学习方法。该方法通过改进的光度损失函数和多阶段训练,解决了低纹理区域和自身运动预测不准确的问题。实验证明该方法在性能上超过了之前的最新方法,并在ScanNet数据集上验证了其泛化能力。
本文介绍了一种通过多阶段训练扩大双编码器模型规模的方法,解决了双编码器在不同域上的推广问题。该方法在域外泛化和检索性能方面取得了显著提高,优于现有的检索模型。消融研究还发现该方法在数据效率方面非常高效。
该文介绍了一种将大型语言模型整合到医疗保健中的多阶段训练方法,通过专业域持续预训练、监督微调和直接偏好优化,以及一个包含医疗问答、纯文本、知识图谱和对话的 3Gb 中医数据集,医学 LLM(Qilin-Med)在性能上有了显著提升。
该文介绍了一种将大型语言模型整合到医疗保健中的多阶段训练方法,通过预训练、微调和优化等方式,提高了医学LLM的性能表现。该方法在测试集上表现优异,达到了16.66和27.44的BLEU-1和ROUGE1分数。
完成下面两步后,将自动完成登录并继续当前操作。