小红花·文摘

研究发现多模型遗忘现象，即在训练多个具有部分共享参数的深度网络时，之前训练的模型性能会下降。通过引入权重可塑性损失，对共享参数进行正则化学习，证明了在训练两个模型和神经架构搜索中的有效性。添加权重可塑性到神经架构搜索可提高结果。

BriefGPT - AI 论文速递 ·

该论文提出了一种名为SortedNet的深度学习模型，通过利用深度神经网络的内在模块化性质，实现了高效动态推断。该方法考虑了子模型的嵌套架构和共享参数，并以排序和概率的方式一起训练主模型和子模型。实验证明了该方法的有效性和可扩展性。

BriefGPT - AI 论文速递 ·

本文介绍了分组查询注意力和多查询注意力两种注意力机制，前者通过共享键和值矩阵减少内存成本，后者让所有头共享同一份键和值矩阵，每个头只保留一份查询参数，从而减少参数量。两种注意力机制的区别在于建立Wqkv层的方式。

结构之法算法之道 ·