量子位 ·

阿里通义发布并行计算新策略：1.6B等效4.4B，内存消耗骤降95%

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

阿里通义推出PARSCALE新策略，使1.6B模型性能接近4.4B，内存占用仅为1/22，延迟增加1/6。该方法通过并行计算和动态聚合权重，显著提升模型能力，训练成本降低98%。

🎯

关键要点

阿里通义推出PARSCALE新策略，使1.6B模型性能接近4.4B模型，内存占用仅为1/22，延迟增加1/6。
PARSCALE通过并行计算和动态聚合权重，显著提升模型能力，训练成本降低98%。
该方法可直接应用于现有模型，无需从头训练。
PARSCALE灵感来源于CFG双路径推理机制，将并行思想扩展为训练和推理全流程的计算缩放。
PARSCALE通过可学习的多路径输入变换和动态加权聚合，提升模型决策的多样性和准确性。
在GSM8K数学推理任务中，P=8使1.8B模型性能提升34%，显著高于参数扩展的增益。
两阶段训练策略使得少量数据即可激活并行路径的有效性，且训练成本降低约98%。
PEFT方法在Qwen-2.5-3B模型上调整前缀和聚合权重，提升代码生成任务的性能。

❓

延伸问答

PARSCALE新策略的主要优势是什么？

PARSCALE新策略使1.6B模型性能接近4.4B模型，内存占用仅为1/22，训练成本降低98%。

PARSCALE是如何实现并行计算的？

PARSCALE通过可学习的多路径输入变换和动态加权聚合，实现了并行前向传播和计算缩放。

PARSCALE对现有模型的适配性如何？

PARSCALE可以直接应用于现有模型，无需从头训练，适配性强。

PARSCALE在GSM8K任务中的表现如何？

在GSM8K任务中，P=8使1.8B模型性能提升34%，显著高于参数扩展的增益。

PARSCALE的灵感来源于什么？

PARSCALE的灵感来源于CFG双路径推理机制，将并行思想扩展为训练和推理全流程的计算缩放。

PARSCALE的训练策略是怎样的？

PARSCALE采用两阶段训练策略，第一阶段预训练模型，第二阶段冻结主体参数，仅训练前缀嵌入和聚合权重。

🏷️

继续阅读

模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
垃圾桶里捡零件，弹幕里接需求，B 站有群人在用 AI 野生造产品
胡彦斌利用AI编程开发了粉丝社区App「彦火」，呼吁粉丝参与共创。广西学生JXW从垃圾桶捡镜子制作智能眼镜，获得关注。听障者李朋程开发语训App，帮助听障...
HostKVM香港优化线路 VPS 限时 8 折：4GB 内存/2 核/40G SSD 仅需 $9.6/月
HostKVM推出香港VPS夏季特惠，所有线路享受8折优惠，针对内地客户优化，具备低延迟和高带宽性价比，支持信用卡和支付宝等多种支付方式。
我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]
保时捷Cayenne Coupe Turbo甚至会让911车主感到紧张
保时捷新款Cayenne Coupe Turbo更紧凑且更强大，拥有1139马力和1106磅-英尺的扭矩，成为史上最强保时捷。其电动版本加速迅猛，0-60...