本研究提出了一种元梯度下降(MGD)方法,旨在优化大规模机器学习模型的训练配置。MGD通过高效计算元梯度和“平滑模型训练”框架,在数据集选择和学习率调度方面显著提升了效果,优于现有的数据中毒攻击。
本研究探讨了计算最佳规模是否依赖于知识与推理技能,发现不同技能的规模规律显著不同,数据集选择和模型参数的影响可达50%。该研究为大规模语言模型的开发提供了新见解。
完成下面两步后,将自动完成登录并继续当前操作。