小红花·文摘

我们知道，用Adam、Muon等优化器更新矩阵参数时，奇异值和左右奇异向量都会随之变化，它们通常都是耦合在一起。也正是因为这种耦合性，我们无法简单地调控矩阵参数的奇异值，因此在奇异值出现异常增长...

流形上的最速下降：6. Muon + 双旋转

科学空间|Scientific Spaces ·

$DeepSeek-V4——迈向百万token上下文：保留V3的MoE和多token预测机制，提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)$

DeepSeek-V4——迈向百万token上下文：保留V3的MoE和多token预测机制，提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

结构之法算法之道 ·

本文探讨了流形上的最速下降问题，提出了对偶梯度下降法。通过分析核范数梯度，作者将约束优化问题转化为最小化目标函数，从而计算流形上的优化方向。

流形上的最速下降：5. 对偶梯度下降

科学空间|Scientific Spaces ·

Gram空间流形Muon

Nathan Chen ·

本文探讨了在谱球面约束下求解Muon问题的方法，采用一阶近似简化约束形式。通过待定系数法和数值解法构建迭代方案，以满足约束条件并实现谱范数归一化。文章提供了练习机会，技术难度较低。

流形上的最速下降：4. Muon + 谱球面

科学空间|Scientific Spaces ·

本文探讨了在正交约束下求解非方阵最速下降方向的方法，提出了一种基于迭代算法的解决方案，涉及矩阵谱范数和切空间的概念。通过数值算法和奇异值分解（SVD）技术，解决了优化问题，并比较了不同方法的效果。

流形上的最速下降：3. Muon + Stiefel

科学空间|Scientific Spaces ·

本文探讨了Muon优化器的构建，首先在谱范数约束下进行矩阵参数的最速下降，然后引入正交约束以保持参数为正交矩阵，最终得出适用于正交性优化场景的更新规则。

流形上的最速下降：2. Muon + 正交

科学空间|Scientific Spaces ·

本文探讨了约束优化中“最速下降方向”与梯度的关系，强调不同范数对最速下降方向的影响。通过分析SGD在超球面上的应用，提出了“最小作用量原理”，并讨论了在约束条件下的参数更新优化方法。

流形上的最速下降：1. SGD + 超球面

科学空间|Scientific Spaces ·

本研究提出了一种基于流形的随机梯度下降方法，解决了正则化的加权低秩逼近问题。实验结果显示，该算法在Netflix数据集上的表现优于传统方法，具有实际应用潜力。

基于流形的随机梯度下降的加权低秩逼近

BriefGPT - AI 论文速递 ·

本研究解决了静态词嵌入在复杂句子结构和领域特定术语转变中的灵活性不足问题。提出了一种通过连续几何变换动态重构词嵌入的结构化方法，使得嵌入能够在不断变化的话语结构中进化。研究结果表明，这种动态调制的嵌入显著减少了混乱度，改善了词汇连贯性，提高了句子级连续性，尤其在结构化和领域自适应的文本生成任务中表现突出。

大型语言模型中的词汇流形重构：一种新颖的上下文调制架构方法

BriefGPT - AI 论文速递 ·

本研究解决了传统几何深度学习模型在处理大规模数据集时面临的高推理时间和内存需求的问题。我们提出了一种无注意力机制的视觉曼巴架构，通过将球面数据表示为三角形补丁序列，提高了处理效率。实验结果表明，该方法在新生儿脑部皮层表面指标上的回归任务中，推理速度提高了4.8倍，内存消耗减少了91.7%，显示出其识别细微认知发展模式的潜力。

表面视觉曼巴：利用双向状态空间模型实现高效的球面流形表示

BriefGPT - AI 论文速递 ·

本研究探讨了低秩脉冲神经网络中存储重叠联想记忆的挑战，提出了一种在低维流形上实现动态存储的方法，显著提高了存储能力和模式完成的稳健性，对神经科学和机器学习具有重要影响。

在低秩脉冲网络中存储重叠的联想记忆于潜在流形

BriefGPT - AI 论文速递 ·

本研究解决了高维数据降维准确性与可解释性之间的平衡问题，提出了一种名为DMT-HI的新方法。该方法结合了超曲嵌入与专家混合模型，显著提高了降维的准确性和可解释性。实验表明，DMT-HI在复杂数据分析中表现出色，具有重要的应用潜力。

基于MOE的超曲面可解释深度流形变换用于无监督降维

BriefGPT - AI 论文速递 ·

该论文提出了一种结合多视角学习和流形正则化的半监督学习方法，通过优化Huber loss提升图像分类准确性。研究表明，利用无标签数据可降低标签预算，提出的深度主动学习方法在多个任务中表现优异，特别是在自动驾驶领域，通过轨迹信息优化数据筛选，提升模型性能。

保持流形的深度主动学习轨迹采样

BriefGPT - AI 论文速递 ·

本研究针对高维数据上的回归分析问题，提出了一种新的基于扩散的谱算法，尤其是针对嵌入在低维流形中的数据。该算法通过图拉普拉斯近似和热核的局部估计特性，提供了一种自适应的数据驱动方法，能够在完全无标签的数据上进行半监督学习，从而显著提升性能并深入理解数据流形。研究表明，算法的收敛速率仅依赖于流形的内在维度，有效克服了与高维数据相关的维度诅咒。

基于扩散的半监督谱算法在流形回归中的应用

BriefGPT - AI 论文速递 ·

本研究解决了现有扩散模型在高维数据分布下收敛速率的问题，指出在流形假设的情况下，扩散模型的收敛步数是对内在维度$d$呈线性关系的。研究通过新型的积分方案，展示了这种线性依赖性是精确的，具有显著的理论与实际影响。

在流形假设下扩散模型的线性收敛性

BriefGPT - AI 论文速递 ·

本文介绍了多种生成模型，如M-flows、Moser Flow和Riemannian Flow Matching，强调它们在数据流形学习、降维、去噪和生成性能上的优势。这些模型通过改进训练算法和流匹配技术，在复杂数据集上表现出色，尤其在分子生成和细胞轨迹预测领域取得了显著进展。

数据流形上的回拉流匹配

BriefGPT - AI 论文速递 ·

本研究提出了MANTRA数据集，旨在解决复杂系统中高阶交互作用建模的数据匮乏问题。该数据集适用于高阶模型的基准评估，研究表明基于单纯复形的神经网络在捕捉简单拓扑不变量方面优于基于图的模型，但仍面临挑战，为拓扑深度学习提供了新思路。

MANTRA: 流形三角剖分集合

BriefGPT - AI 论文速递 ·

本文提出了一种基于网格的学习框架，用于捕捉三维重构中的细粒度几何信息。该方法通过自由形变和稀疏线性组合重建三维物体，避免依赖轮廓和标记。实验结果表明，该方法在几何处理效率和非刚性形状一致性估算方面具有竞争优势，适用于多个领域。

空间网格：用于学习流形表面网格的连续表示

BriefGPT - AI 论文速递 ·

本研究解决了交叉流形分割中存在的个体流形无法有效分离的问题。提出的方法通过测量局部数据方差及方向，适应子流形与父流形间方向向量的角变化，从而识别交叉区域。最终结果表明，该方法在14个真实数据集上的表现优于18种现有流形分割方法，具备更低的时间复杂度和更好的稳定性。

ACEV：基于对特征向量角变化的适应的无监督交叉流形分割

BriefGPT - AI 论文速递 ·