中科大与华为合作发布的生成式推荐大模型成功在昇腾NPU上部署,基于扩展定律提升推荐系统性能,适用于复杂场景和排序任务,展现良好扩展性。未来研究将集中于数据工程和训练效率等方向。
英伟达首席执行官黄仁勋表示,该公司AI芯片的性能提升速度超越摩尔定律,归功于全堆栈创新。他否认AI发展放缓,指出当前有三条活跃的AI扩展定律,并强调推理成本将降低。
本文研究了语言模型性能与交叉熵损失的关系,发现损失与模型和数据集大小呈幂律关系。提出了时间缩放定律,探讨了预训练数据对下游性能的影响,并确认了扩展定律在大型模型中的有效性,为模型优化和预训练流程提供了指导。
本文讨论了语言模型的扩展和发展趋势,指出扩展定律被误解,模型的涌现能力受限于外推能力,高质量训练数据难以获取,扩展几乎无法实现人工通用智能,模型行业面临模型尺寸下行压力,合成数据不能替代高质量人类数据,训练时间逐渐增长,许多CEO降低了对AGI的期望。
完成下面两步后,将自动完成登录并继续当前操作。