小红花·文摘

阿里通义推出PARSCALE新策略，使1.6B模型性能接近4.4B，内存占用仅为1/22，延迟增加1/6。该方法通过并行计算和动态聚合权重，显著提升模型能力，训练成本降低98%。