等价线性神经网络集合的几何结构

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

通过研究深度神经网络的层次结构,发现随着深度增加,数据集的拓扑结构变得简单,Betti数最小。拓扑复杂度的衰减速率可以量化架构选择对泛化能力的影响。通过考虑预训练模型的排序任务,证明了网络的表达能力与泛化能力之间的联系。

🎯

关键要点

  • 通过 Betti 数研究深度神经网络各层特征嵌入空间的拓扑结构变化。

  • 随着深度增加,复杂数据集转变为简单数据集,Betti 数达到最低值。

  • 拓扑复杂度的衰减速率量化架构选择对泛化能力的影响。

  • 强调几种不变性,包括相似数据集上的体系结构和深度可变的嵌入空间。

  • 考虑预训练模型的排序任务,证明网络的表达能力与泛化能力之间的联系。

  • 所提出的度量方法与微调预训练模型的准确性具有更好的相关性。

➡️

继续阅读