该研究探讨了变分自编码器(VAE)中的隐藏表示,提出了内在维度和信息不平衡的新理解。研究发现,当瓶颈大小超过内在维度时,VAE的行为会发生变化,并确认了快速拟合与缓慢泛化的训练阶段。这为优化架构搜索和诊断欠拟合问题提供了新工具。
大型语言模型在不同语言的推理任务中展示出令人印象深刻的推理能力。研究发现,无知识推理能力在各种资源中几乎完全可转移,而跨语言知识检索受到阻碍。隐藏表示的相似性和激活神经元的重叠可以解释无知识推理具有更好的跨语言可迁移性。
研究发现,神经网络训练中的设计选择会影响隐藏表示中的聚类。预训练模型在聚类时表现更好,尤其是预先训练于子类标签的模型。视觉变换器的子类聚类能力比 ResNet 低。
完成下面两步后,将自动完成登录并继续当前操作。