小红花·文摘

本文介绍了一种名为Subformer的算法，通过参数共享和自我关注嵌入技术提升机器翻译、摘要和语言建模等任务的性能。研究表明，参数共享优化了训练收敛并降低了模型复杂度。此外，提出的FinerCut剪枝方法优化了Transformer网络，提高了效率并保持了语言能力。研究还探讨了KV缓存共享技术，发现其在减少缓存时仍能保持性能，推动了大型语言模型的高效应用。

放松递归变压器：层级LoRA的有效参数共享

BriefGPT - AI 论文速递 ·

该研究发现合作多智能体强化学习中的价值分解和参数共享可能导致问题和不良结果，而个体策略的策略梯度方法在这些情况下表现良好。研究提出了实用建议，并进行了实证验证。

通过统一动作空间改善物理异构多智能体强化学习中的全局参数共享

BriefGPT - AI 论文速递 ·

本文介绍了联邦学习中的异构模型集成与协同训练技术，包括知识蒸馏和参数共享与迁移学习。异构模型集成可以提高模型的泛化能力和鲁棒性，应用于智能医疗诊断系统和智能交通管理系统。

详解联邦学习中的异构模型集成与协同训练技术

华为云官方博客 ·

该论文提出了一种新的系统和方法，用于开发高效大型语言模型。研究发现了一种允许模型不同部分共享参数的方法，从而减少所需的唯一参数总数。该方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具。

超小型语言模型

BriefGPT - AI 论文速递 ·

高容量预训练模型改变了计算机视觉问题解决方式。本研究提出了适配器重组策略，通过参数共享实现层间参数共享，重新组合层自适应的适配器。实验结果显示该方法减少参数数量，同时实现了令人信服的迁移学习性能。

低秩重缩放视觉转换器微调：一种残差设计方法

BriefGPT - AI 论文速递 ·

提出了一种新颖的分散噪声模型更新跟踪联邦学习算法 (FedNMUT)，该算法在存在反映不完善信息交换的噪声通信通道的情况下高效运行。FedNMUT 优先考虑参数共享和噪声纳入，以增加去中心化学习系统对噪声通信的抵抗能力。

分散联邦学习：在信息共享不完善情况下的模型更新跟踪

BriefGPT - AI 论文速递 ·

该研究发现合作多智能体强化学习中的价值分解和参数共享可能导致问题和不良结果，而个体策略的策略梯度方法表现良好。研究提出了实用建议，并在多个领域进行了实证验证。希望该研究对开发更强大的多智能体强化学习算法有所帮助。

PPS-QMIX: 周期性参数共享加速多智能体强化学习的收敛

BriefGPT - AI 论文速递 ·

该研究发现合作多智能体强化学习中的价值分解和参数共享可能导致问题和不良结果，而个体策略的策略梯度方法在这些情况下表现良好。研究提出实用建议，并在多个领域进行了实证验证，有助于开发更强大的多智能体强化学习算法。

基于噪声分布分解的多智能体分布式强化学习

BriefGPT - AI 论文速递 ·

本文介绍了一种利用神经常微分方程构建的技术，提高了参数共享的预训练语言模型的推理效率，并实现了更大的推理加速。实验结果证明了该方法在自回归和自编码 PLMs 上的有效性，并为在资源受限环境中更高效地利用参数共享模型提供了新的见解。

提升推理效率：释放参数共享的预训练语言模型的力量

BriefGPT - AI 论文速递 ·

该研究提出了一种新的高效大型语言模型开发方法，探讨了模型大小、性能和计算资源之间的权衡，发现了允许模型不同部分共享参数的新方法。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具，为 AI 语言建模的可持续和可访问的未来做出了贡献。

研究人员通过使用新的Transformer架构和任务条件模块实现了更有效的参数共享，并通过保持预训练模型的一半权重来缓解遗忘。他们还采用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。在GLUE上，他们的八任务模型超过了其他Adapter方法2.8％，而他们的24任务模型在使用MTL和单任务微调的模型上表现优异。他们还展示了他们的单个多任务模型方法在26个NLP任务中竞争，并在一些测试和开发集上取得了最先进的结果。

自然语言处理中使用基于 Transformer 的多任务学习的挑战与机遇：一项调研

BriefGPT - AI 论文速递 ·

放松递归变压器：层级LoRA的有效参数共享

通过统一动作空间改善物理异构多智能体强化学习中的全局参数共享

详解联邦学习中的异构模型集成与协同训练技术

超小型语言模型

低秩重缩放视觉转换器微调：一种残差设计方法

分散联邦学习：在信息共享不完善情况下的模型更新跟踪

PPS-QMIX: 周期性参数共享加速多智能体强化学习的收敛

基于噪声分布分解的多智能体分布式强化学习

提升推理效率：释放参数共享的预训练语言模型的力量

从文字到瓦特：大型语言模型推理的能源成本基准测试

自然语言处理中使用基于 Transformer 的多任务学习的挑战与机遇：一项调研