中科大与华为合作发布的生成式推荐大模型成功在昇腾NPU上部署,基于扩展定律提升推荐系统性能,适用于复杂场景和排序任务,展现良好扩展性。未来研究将集中于数据工程和训练效率等方向。
英伟达首席执行官黄仁勋表示,该公司AI芯片的性能提升速度超越摩尔定律,归功于全堆栈创新。他否认AI发展放缓,指出当前有三条活跃的AI扩展定律,并强调推理成本将降低。
Kaplan和Hoffmann等人提出的预算优化模型的扩展定律预测结果存在差异。通过分析计算成本、预热时间和优化器调整等因素,修正后与Hoffmann的定律一致。研究发现学习率衰减对模型有效性影响不大,并推导出最优学习率和批次大小的扩展定律。
本文讨论了语言模型的扩展和发展趋势,指出扩展定律被误解,模型的涌现能力受限于外推能力,高质量训练数据难以获取,扩展几乎无法实现人工通用智能,模型行业面临模型尺寸下行压力,合成数据不能替代高质量人类数据,训练时间逐渐增长,许多CEO降低了对AGI的期望。
Kaplan和Hoffmann开发了用于优化计算预算的扩展定律,但他们的预测有所不同。通过在两个数据集上重现Kaplan的定律并识别三个因素,我们解释了这些差异。在纠正这些因素后,我们实现了与Hoffmann定律的一致性。学习率衰减对效果并不重要。我们推导出学习率和批量大小的扩展定律,发现调整AdamW的β2参数对于较小的批量大小至关重要。
通过研究扩展定律,发现DeepSeek LLM在7B和67B两种开源配置下用于扩展大规模模型,并介绍了项目前景。DeepSeek LLM 67B在各种基准测试中超过LLaMA-2 70B,尤其在代码、数学和推理领域。开放式评估显示DeepSeek LLM 67B Chat优于GPT-3.5。
完成下面两步后,将自动完成登录并继续当前操作。