小红花·文摘

SPD：大语言模型高效张量并行的同步点丢弃技术

Apple Machine Learning Research ·

本研究综述了联邦学习在分布式机器学习中的数据隐私与安全问题，分析其架构、生命周期及技术挑战，提出降低通信开销和增强隐私的新方法，展示其在医疗、金融和智能物联网等领域的应用潜力。

Federated Learning: A Survey on Privacy-Preserving Collaborative Intelligence

BriefGPT - AI 论文速递 ·

本研究提出选择性注意联邦学习（SAFL）方法，旨在解决医疗应用中的通信开销和模型隐私问题。SAFL通过动态微调重要变换层，降低通信带宽并增强隐私保护。实验结果表明，SAFL在临床自然语言处理基准测试中表现优越，提升了效率并维护了隐私。

Selective Attention Federated Learning: Enhancing Privacy and Efficiency in Clinical Text Classification

BriefGPT - AI 论文速递 ·

本研究探讨了去中心化联邦学习中的领域泛化问题，提出了StyleDDG算法，通过共享风格信息实现领域泛化。该算法在不同目标领域中显著提高了准确性，并减少了通信开销。

去中心化联邦领域泛化与风格共享：形式建模与收敛分析

BriefGPT - AI 论文速递 ·

本研究提出了一种新优化器Dion，旨在降低大型AI模型训练中的通信开销。Dion通过正交化更新和设备本地动量缓冲区，避免全梯度矩阵同步，从而提升训练效率。

Dion: An Efficient Communication Optimizer for Large AI Models

BriefGPT - AI 论文速递 ·

本研究提出了COMET系统，通过数据依赖性分析和任务重调度，优化了混合专家模型在分布式环境中的通信开销，实现了计算与通信的重叠，从而显著加速了模型执行。

COMET: Fine-Grained Computation-Communication Overlap for Mixture-of-Experts

BriefGPT - AI 论文速递 ·

该研究提出了一种新的分布式交叉注意力机制LV-XAttn，旨在解决多模态大语言模型在处理大量视觉输入时的高内存需求和通信开销问题。该方法通过在每个GPU上保留大的键值块并交换较小的查询块，显著降低了通信开销，并支持更长的视觉上下文，实验证明可实现高达5.58倍的速度提升。

LV-XAttn: Distributed Cross-Attention for Long Visual Inputs in Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了PRESERVE框架，旨在解决大语言模型推理中的内存带宽瓶颈和设备间通信开销问题。通过优化内存读取和集体通信，该框架在商业AI加速器上实现了最高1.6倍的加速，显著提高了性能和成本效率。

PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving

BriefGPT - AI 论文速递 ·

本研究提出了一种新的单次聚类算法，用于层次联邦学习中的聚类身份估计。该算法通过数据相似性有效分组用户，提升聚类效率，并解决了隐私、通信开销和模型先验知识的需求问题。实验结果表明，该算法在准确性和方差降低方面优于基线方法。

基于数据相似性的单次聚类用于多任务层次联邦学习

BriefGPT - AI 论文速递 ·

本研究提出了一种名为“Ferret”的新方法，用于在联邦环境中调整大型语言模型。该方法通过减少通信开销，保持模型的高精度和快速收敛，提高了现有联邦调优方法的可扩展性和计算效率。

Ferret：大规模联邦全参数调优大型语言模型

BriefGPT - AI 论文速递 ·

本研究提出了一种集成的联合分割学习和超维计算框架（FSL-HDC），用于解决元宇宙中联合学习的通信开销和计算需求问题。该方法降低了通信成本和计算负担，适用于资源受限的边缘设备，并提高了交互的实时响应能力。研究结果表明，FSL-HDC在准确率和收敛速度上优于传统方法。

基于超维计算的无线网络联合基础模型应用于元宇宙

BriefGPT - AI 论文速递 ·

本研究提出了一种分层学习与计算框架，解决了物联网设备在缺乏地面通信基础设施情况下的高通信开销和隐私问题。通过利用低轨卫星和静止轨道卫星的特性，为地面物联网设备提供全球聚合服务。研究结果表明，所提出的能效路由算法在真实环境中显著降低了能耗并优于基准方法。

空间-地面集成网络的分层学习与计算

BriefGPT - AI 论文速递 ·

该论文提出了一种新的分布式训练方法，使用LSS Transformer来训练长序列的变压器。通过融合通信和双梯度平均技术，提高训练效率和减少通信开销。在Wikipedia enwik8数据集上，方法在144个Nvidia V100 GPU上实现了5.6倍的加速和10.2倍的内存效率。可扩展到长度达到50,112的极限序列，实现了161%的超线性并行效率和32 petaflops的吞吐量。

解密分布式变换器模型的通信特性

BriefGPT - AI 论文速递 ·

本文综述了联邦学习在自动化车辆中的应用进展，分析了关键特性和方法学，并讨论了数据来源、模型和数据安全技术的重要性。同时，探讨了联邦学习的特定应用和面临的挑战，并提出了提升效果和效率的潜在方向。

车载网络中的移动感知联邦自监督学习

BriefGPT - AI 论文速递 ·

FedTime是一个针对长期时间序列预测的联邦大型语言模型，通过使用K-means聚类、通道独立性和修补等策略，提高了预测精度并减少通信开销。在真实预测基准测试中，FedTime模型展示了显著的改进，资源使用效率高且通信开销降低。

PINE：用于秘密共享向量的高效范数界验证

Apple Machine Learning Research ·

现代深度神经网络需要分布式训练以解决规模问题，但通信开销成为瓶颈。本文提出了适应性批量大小策略，减小小批量梯度的方差，提供了收敛性保证，并通过实验证明了策略的有效性。

该论文介绍了一种使用LSS Transformer进行分布式训练的新方法，能够高效训练长序列的变压器。通过融合通信和双梯度平均技术，该方法在多个GPU上提高了训练效率和减少了通信开销。实验结果显示，在144个Nvidia V100 GPU上实现了5.6倍的加速和10.2倍的内存效率，并在3,456个GPU上可扩展到长度达到50,112的极限序列，实现了161%的超线性并行效率和32 petaflops的吞吐量。