等价线性神经网络集合的几何结构
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
通过研究深度神经网络的层次结构,发现随着深度增加,数据集的拓扑结构变得简单,Betti数最小。拓扑复杂度的衰减速率可以量化架构选择对泛化能力的影响。通过考虑预训练模型的排序任务,证明了网络的表达能力与泛化能力之间的联系。
🎯
关键要点
-
通过 Betti 数研究深度神经网络各层特征嵌入空间的拓扑结构变化。
-
随着深度增加,复杂数据集转变为简单数据集,Betti 数达到最低值。
-
拓扑复杂度的衰减速率量化架构选择对泛化能力的影响。
-
强调几种不变性,包括相似数据集上的体系结构和深度可变的嵌入空间。
-
考虑预训练模型的排序任务,证明网络的表达能力与泛化能力之间的联系。
-
所提出的度量方法与微调预训练模型的准确性具有更好的相关性。
➡️