本研究提出了一种蒸馏规模法则,以解决大规模蒸馏模型的性能估计问题。合理的资源分配显著提升了学生模型的性能,并提供了优化蒸馏的方案,促进了实验设计与蒸馏过程的理解。
研究提出了一种新算法,通过多任务训练获得元初始化,优化语言模型的微调。该方法利用函数值和梯度近似子集进行性能估计,无需重复训练。实验证明,CPU上估计速度提高30倍,误差仅1%,下游评估性能提升最多3.8%。
本研究提出了一种新方法,利用图神经网络建模预测段落质量及其邻近段落关系,解决了深度神经网络在安全关键应用中的性能估计问题。研究结果显示该方法在性能上有显著提升,具有实际应用潜力。
本文介绍了一种基于实际硬件的训练程序得出的预期性能估计来排名量子电路的机器学习方法。通过在IBM硬件上进行电路测量,发现逻辑上等效的布局的保真度可以相差一个量级。作者引入了一个用于排名的电路得分,通过使用测量数据集上的排名损失函数进行拟合。在16比特的设备上进行模型训练和执行,并与两种常见方法进行比较,结果显示该方法优于这两种方法,预测的布局噪声更低,性能更高。同时,该方法还揭示了背离简单代理测量所推断性能估计的依赖上下文和相干门错误的特定方式。
该研究评估了多源数据环境下的交叉验证方法,发现留源交叉验证提供了更可靠的性能估计。研究强调了医学数据上误导性交叉验证结果的危害,并提出了减轻问题的方法。
完成下面两步后,将自动完成登录并继续当前操作。