小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek-V4系列模型推出了1.6T和284B参数的两个版本,采用混合注意力架构和流形约束超连接,提升了长上下文处理效率。通过Muon优化器和多项基础设施优化,模型在训练和推理阶段展现出更高的稳定性和效率。预训练后,DeepSeek-V4在多个基准测试中超越前代,设立了新的性能标准。

DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

结构之法 算法之道
结构之法 算法之道 · 2026-05-03T15:54:48Z

本文探讨了流形上的最速下降问题,提出了对偶梯度下降法。通过分析核范数梯度,作者将约束优化问题转化为最小化目标函数,从而计算流形上的优化方向。

流形上的最速下降:5. 对偶梯度下降

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-11-03T02:22:00Z
Gram空间流形Muon

本文探讨了Muon优化器的变体,提出通过放宽Gram矩阵约束设计多种流形约束优化器。Muon优化器通过正交化权重更新改善条件数,而流形Muon进一步将权重限制在特定几何形状上。研究表明,放宽约束可以在保持良好条件的同时提升优化器的灵活性和收敛速度。

Gram空间流形Muon

Nathan Chen
Nathan Chen · 2025-10-13T00:00:00Z

本文探讨了在谱球面约束下求解Muon问题的方法,采用一阶近似简化约束形式。通过待定系数法和数值解法构建迭代方案,以满足约束条件并实现谱范数归一化。文章提供了练习机会,技术难度较低。

流形上的最速下降:4. Muon + 谱球面

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-08-21T13:04:00Z

本文探讨了在正交约束下求解非方阵最速下降方向的方法,提出了一种基于迭代算法的解决方案,涉及矩阵谱范数和切空间的概念。通过数值算法和奇异值分解(SVD)技术,解决了优化问题,并比较了不同方法的效果。

流形上的最速下降:3. Muon + Stiefel

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-08-08T05:08:00Z

本文探讨了Muon优化器的构建,首先在谱范数约束下进行矩阵参数的最速下降,然后引入正交约束以保持参数为正交矩阵,最终得出适用于正交性优化场景的更新规则。

流形上的最速下降:2. Muon + 正交

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-08-06T04:43:00Z

本文探讨了约束优化中“最速下降方向”与梯度的关系,强调不同范数对最速下降方向的影响。通过分析SGD在超球面上的应用,提出了“最小作用量原理”,并讨论了在约束条件下的参数更新优化方法。

流形上的最速下降:1. SGD + 超球面

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-08-01T02:32:00Z

本研究提出了一种基于流形的随机梯度下降方法,解决了正则化的加权低秩逼近问题。实验结果显示,该算法在Netflix数据集上的表现优于传统方法,具有实际应用潜力。

基于流形的随机梯度下降的加权低秩逼近

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究解决了静态词嵌入在复杂句子结构和领域特定术语转变中的灵活性不足问题。提出了一种通过连续几何变换动态重构词嵌入的结构化方法,使得嵌入能够在不断变化的话语结构中进化。研究结果表明,这种动态调制的嵌入显著减少了混乱度,改善了词汇连贯性,提高了句子级连续性,尤其在结构化和领域自适应的文本生成任务中表现突出。

大型语言模型中的词汇流形重构:一种新颖的上下文调制架构方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

本研究解决了传统几何深度学习模型在处理大规模数据集时面临的高推理时间和内存需求的问题。我们提出了一种无注意力机制的视觉曼巴架构,通过将球面数据表示为三角形补丁序列,提高了处理效率。实验结果表明,该方法在新生儿脑部皮层表面指标上的回归任务中,推理速度提高了4.8倍,内存消耗减少了91.7%,显示出其识别细微认知发展模式的潜力。

表面视觉曼巴:利用双向状态空间模型实现高效的球面流形表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-24T00:00:00Z

本研究探讨了低秩脉冲神经网络中存储重叠联想记忆的挑战,提出了一种在低维流形上实现动态存储的方法,显著提高了存储能力和模式完成的稳健性,对神经科学和机器学习具有重要影响。

在低秩脉冲网络中存储重叠的联想记忆于潜在流形

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

本研究解决了高维数据降维准确性与可解释性之间的平衡问题,提出了一种名为DMT-HI的新方法。该方法结合了超曲嵌入与专家混合模型,显著提高了降维的准确性和可解释性。实验表明,DMT-HI在复杂数据分析中表现出色,具有重要的应用潜力。

基于MOE的超曲面可解释深度流形变换用于无监督降维

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-25T00:00:00Z

该论文提出了一种结合多视角学习和流形正则化的半监督学习方法,通过优化Huber loss提升图像分类准确性。研究表明,利用无标签数据可降低标签预算,提出的深度主动学习方法在多个任务中表现优异,特别是在自动驾驶领域,通过轨迹信息优化数据筛选,提升模型性能。

保持流形的深度主动学习轨迹采样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本研究针对高维数据上的回归分析问题,提出了一种新的基于扩散的谱算法,尤其是针对嵌入在低维流形中的数据。该算法通过图拉普拉斯近似和热核的局部估计特性,提供了一种自适应的数据驱动方法,能够在完全无标签的数据上进行半监督学习,从而显著提升性能并深入理解数据流形。研究表明,算法的收敛速率仅依赖于流形的内在维度,有效克服了与高维数据相关的维度诅咒。

基于扩散的半监督谱算法在流形回归中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-18T00:00:00Z

本研究解决了现有扩散模型在高维数据分布下收敛速率的问题,指出在流形假设的情况下,扩散模型的收敛步数是对内在维度$d$呈线性关系的。研究通过新型的积分方案,展示了这种线性依赖性是精确的,具有显著的理论与实际影响。

在流形假设下扩散模型的线性收敛性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-11T00:00:00Z

本文介绍了多种生成模型,如M-flows、Moser Flow和Riemannian Flow Matching,强调它们在数据流形学习、降维、去噪和生成性能上的优势。这些模型通过改进训练算法和流匹配技术,在复杂数据集上表现出色,尤其在分子生成和细胞轨迹预测领域取得了显著进展。

数据流形上的回拉流匹配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z

本研究提出了MANTRA数据集,旨在解决复杂系统中高阶交互作用建模的数据匮乏问题。该数据集适用于高阶模型的基准评估,研究表明基于单纯复形的神经网络在捕捉简单拓扑不变量方面优于基于图的模型,但仍面临挑战,为拓扑深度学习提供了新思路。

MANTRA: 流形三角剖分集合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

本文提出了一种基于网格的学习框架,用于捕捉三维重构中的细粒度几何信息。该方法通过自由形变和稀疏线性组合重建三维物体,避免依赖轮廓和标记。实验结果表明,该方法在几何处理效率和非刚性形状一致性估算方面具有竞争优势,适用于多个领域。

空间网格:用于学习流形表面网格的连续表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本研究解决了交叉流形分割中存在的个体流形无法有效分离的问题。提出的方法通过测量局部数据方差及方向,适应子流形与父流形间方向向量的角变化,从而识别交叉区域。最终结果表明,该方法在14个真实数据集上的表现优于18种现有流形分割方法,具备更低的时间复杂度和更好的稳定性。

ACEV:基于对特征向量角变化的适应的无监督交叉流形分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本研究针对当前扩散模型在高维数据分布中表现出的局限性进行了探讨,提出了在流形假设下分析去噪扩散概率模型的新方法。研究表明,这些模型在学习评分方面与环境维度无关,同时在采样时相对于Kullback-Leibler散度的速率也显著,具有潜在的理论与实际应用价值。

高维下流形假设下的扩散模型的收敛性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码