《图解 DeepSeek 技术》介绍了大语言模型的基础知识,适合零基础读者。书中讨论了“涌现”现象和缩放定律,强调模型规模、数据量和计算量的重要性。深度思考模式提升了模型输出质量,DeepSeek-R1通过蒸馏方法将推理能力传递给小模型,显著增强了小模型的能力。
这篇文章介绍了修改后的缩放定律,考虑了训练和推理成本。研究人员发现,通过在更多数据上训练较小但同样强大的模型,可以弥补额外的训练成本。模型质量随着参数标记数量的增加而提高。文章还讨论了如何估计实际成本,并提出了适用于实际部署的目标函数。作者建议在推理需求较高的情况下,可以训练更长时间的模型,以提高质量。
本文研究了语言模型性能与交叉熵损失之间的关系,发现损失与模型大小、数据集大小和计算量呈幂律关系。研究表明,训练大型模型并合理使用数据可以提高计算效率。通过对104个模型的测试,提出了新的缩放定律,强调计算预算对模型性能的影响,并建议在推理需求大的情况下,训练较小且更长的模型以优化性能。
本文探讨了大规模语言模型的缩放定律,研究了模型大小、数据集和计算量之间的幂律关系。发现语言模型在不同令牌位置的学习均匀,网络宽度或深度变化对性能影响较小。提出了时间缩放定律,并通过实验验证了多尺度变压器模型的优势。
本文探讨了神经网络的缩放定律,指出模型性能与训练时间、数据集大小和计算量之间存在幂律关系。研究表明,训练大型模型并适时停止训练可以实现最佳性能。同时,分析了自回归生成模型和声学模型的性能与规模关系,强调了在数据受限情况下的训练方法和计算优化的重要性。
本文探讨了低秩训练技术,介绍了新方法ReLoRA,适用于350M参数的预训练transformer模型,表现出与常规训练相当的性能。ReLoRA在模型增大时效率提升,适合训练十亿参数网络,展示了低秩训练的潜力及其对缩放定律的影响。
本文研究了使用单个消费级GPU训练一天的遮蔽语言模型的下游性能,并通过修改预训练流程证明了性能与大型计算环境下的缩放定律密切相关。
完成下面两步后,将自动完成登录并继续当前操作。