随着大语言模型的快速发展,分布式推理中的通信开销成为主要挑战。我们提出了一种新技术Sync-Point Drop(SPD),通过选择性减少注意力输出的同步,降低通信开销。SPD在保持模型准确性的同时,有效缓解了通信瓶颈,实现了约20%的推理延迟减少,准确率下降不足1%。
本研究综述了联邦学习在分布式机器学习中的数据隐私与安全问题,分析其架构、生命周期及技术挑战,提出降低通信开销和增强隐私的新方法,展示其在医疗、金融和智能物联网等领域的应用潜力。
本研究提出选择性注意联邦学习(SAFL)方法,旨在解决医疗应用中的通信开销和模型隐私问题。SAFL通过动态微调重要变换层,降低通信带宽并增强隐私保护。实验结果表明,SAFL在临床自然语言处理基准测试中表现优越,提升了效率并维护了隐私。
本研究探讨了去中心化联邦学习中的领域泛化问题,提出了StyleDDG算法,通过共享风格信息实现领域泛化。该算法在不同目标领域中显著提高了准确性,并减少了通信开销。
本研究提出了一种新优化器Dion,旨在降低大型AI模型训练中的通信开销。Dion通过正交化更新和设备本地动量缓冲区,避免全梯度矩阵同步,从而提升训练效率。
本研究提出了COMET系统,通过数据依赖性分析和任务重调度,优化了混合专家模型在分布式环境中的通信开销,实现了计算与通信的重叠,从而显著加速了模型执行。
该研究提出了一种新的分布式交叉注意力机制LV-XAttn,旨在解决多模态大语言模型在处理大量视觉输入时的高内存需求和通信开销问题。该方法通过在每个GPU上保留大的键值块并交换较小的查询块,显著降低了通信开销,并支持更长的视觉上下文,实验证明可实现高达5.58倍的速度提升。
本研究提出了PRESERVE框架,旨在解决大语言模型推理中的内存带宽瓶颈和设备间通信开销问题。通过优化内存读取和集体通信,该框架在商业AI加速器上实现了最高1.6倍的加速,显著提高了性能和成本效率。
本研究提出了一种新的单次聚类算法,用于层次联邦学习中的聚类身份估计。该算法通过数据相似性有效分组用户,提升聚类效率,并解决了隐私、通信开销和模型先验知识的需求问题。实验结果表明,该算法在准确性和方差降低方面优于基线方法。
本研究提出了一种名为“Ferret”的新方法,用于在联邦环境中调整大型语言模型。该方法通过减少通信开销,保持模型的高精度和快速收敛,提高了现有联邦调优方法的可扩展性和计算效率。
本研究提出了一种集成的联合分割学习和超维计算框架(FSL-HDC),用于解决元宇宙中联合学习的通信开销和计算需求问题。该方法降低了通信成本和计算负担,适用于资源受限的边缘设备,并提高了交互的实时响应能力。研究结果表明,FSL-HDC在准确率和收敛速度上优于传统方法。
本研究提出了一种分层学习与计算框架,解决了物联网设备在缺乏地面通信基础设施情况下的高通信开销和隐私问题。通过利用低轨卫星和静止轨道卫星的特性,为地面物联网设备提供全球聚合服务。研究结果表明,所提出的能效路由算法在真实环境中显著降低了能耗并优于基准方法。
该论文提出了一种新的分布式训练方法,使用LSS Transformer来训练长序列的变压器。通过融合通信和双梯度平均技术,提高训练效率和减少通信开销。在Wikipedia enwik8数据集上,方法在144个Nvidia V100 GPU上实现了5.6倍的加速和10.2倍的内存效率。可扩展到长度达到50,112的极限序列,实现了161%的超线性并行效率和32 petaflops的吞吐量。
本文综述了联邦学习在自动化车辆中的应用进展,分析了关键特性和方法学,并讨论了数据来源、模型和数据安全技术的重要性。同时,探讨了联邦学习的特定应用和面临的挑战,并提出了提升效果和效率的潜在方向。
FedTime是一个针对长期时间序列预测的联邦大型语言模型,通过使用K-means聚类、通道独立性和修补等策略,提高了预测精度并减少通信开销。在真实预测基准测试中,FedTime模型展示了显著的改进,资源使用效率高且通信开销降低。
介绍了PINE协议,用于确保贡献向量的欧几里德范数有界。PINE在高维向量上的通信开销仅为几个百分点,而前者的开销为16-32倍。
现代深度神经网络需要分布式训练以解决规模问题,但通信开销成为瓶颈。本文提出了适应性批量大小策略,减小小批量梯度的方差,提供了收敛性保证,并通过实验证明了策略的有效性。
该论文介绍了一种使用LSS Transformer进行分布式训练的新方法,能够高效训练长序列的变压器。通过融合通信和双梯度平均技术,该方法在多个GPU上提高了训练效率和减少了通信开销。实验结果显示,在144个Nvidia V100 GPU上实现了5.6倍的加速和10.2倍的内存效率,并在3,456个GPU上可扩展到长度达到50,112的极限序列,实现了161%的超线性并行效率和32 petaflops的吞吐量。
MVSparse是一种合作式多人跟踪框架,通过选择每个帧内的信息块来减少计算负载和通信开销。实验证明,MVSparse在多视角视频中优化地利用了时间和空间冗余,加速了推理时间并轻微损失跟踪准确性。
该论文提出了一种新的系统解决方案,称为神经形态的无线设备边缘协同推理,用于下一代无线系统的重要应用。该解决方案使用神经形态硬件运行设备的感知、处理和通信单元,通过减少通信开销并保留与语义任务相关的重要信息来提高效率。实验结果验证了该架构的有效性。
完成下面两步后,将自动完成登录并继续当前操作。