小红花·文摘

本文探讨了大规模预训练模型中的可训练子网络，利用彩票票据假设（LTH）进行模型剪枝，达到80%稀疏度而不影响性能。研究提出KS-Lottery方法，识别有效参数集，确保微调性能与全面微调相当。实验表明，较小神经网络更易受益于LTH，获得更好训练效果。