小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek-V4系列模型推出了1.6T和284B参数的两个版本,采用混合注意力架构和流形约束超连接,提升了长上下文处理效率。通过Muon优化器和多项基础设施优化,模型在训练和推理阶段展现出更高的稳定性和效率。预训练后,DeepSeek-V4在多个基准测试中超越前代,设立了新的性能标准。

DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

结构之法 算法之道
结构之法 算法之道 · 2026-05-03T15:54:48Z

统计套利是一种基于平稳线性组合的策略,核心在于均值回归、价差中性和长短并举。文章探讨了协整检验、OU过程、PCA残差套利等方法。加密资产的统计套利面临流动性风险和资金调度的挑战,历史案例如LTCM和Quant Quake警示了相关性突变与流动性枯竭的风险。成功的关键在于识别协整窗口和快速止损。

【量化交易】统计套利:协整、配对交易、PCA 残差

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-01T00:00:00Z

残差连接在Transformer中至关重要,它通过提供直通路径解决深层网络的优化问题,使每层只需学习小的修正。残差连接提高了训练的稳定性,促进了梯度的顺畅传播,避免了梯度消失问题,是Transformer成功的关键因素之一。

【Transformer 与注意力机制】24|残差连接:为什么深层网络必须留一条直路

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
LWiAI播客第238期 - GPT 5.4迷你版、OpenAI转型、Mamba 3、注意力残差

本期节目讨论了最新的AI新闻,包括OpenAI的GPT-5.4发布、Mistral新模型、Meta与Nvidia的AI代理竞争,以及各大公司的业务与安全动态。

LWiAI播客第238期 - GPT 5.4迷你版、OpenAI转型、Mamba 3、注意力残差

Last Week in AI
Last Week in AI · 2026-04-01T08:07:15Z
注意残差

本文提出了一种名为注意残差(AttnRes)的方法,以改善大规模语言模型中的残差连接。传统方法使用固定权重累积层输出,导致隐藏状态随深度增长而失控。AttnRes通过软最大注意力聚合前层输出,使每层能够根据输入选择性聚合先前表示。为降低大规模模型训练的内存和通信开销,提出了块级注意残差(Block AttnRes),通过分块处理层来减少内存占用,同时保持性能提升。实验表明,AttnRes在不同模型规模中有效改善了输出均匀性和下游任务表现。

注意残差

Nathan Chen
Nathan Chen · 2026-03-16T00:00:00Z
PLD——自我改进的VLA:先通过离策略RL学习一个轻量级的残差动作策略,然后让该残差策略收集专家数据,最后蒸馏到VLA中

本文探讨了通过残差强化学习提升视觉-语言-动作模型的自我改进能力,提出了一种名为PLD的方法,包含在线专家获取、自动数据收集和监督微调三个阶段。该方法结合基础策略和强化学习专家,成功率超过99%。

PLD——自我改进的VLA:先通过离策略RL学习一个轻量级的残差动作策略,然后让该残差策略收集专家数据,最后蒸馏到VLA中

结构之法 算法之道
结构之法 算法之道 · 2025-12-15T15:38:47Z

LSTM之父Schmidhuber质疑何恺明是残差学习的奠基人,指出早在1991年,Hochreiter已提出循环残差连接以解决梯度消失问题。他认为ResNet等深度学习成果应归功于早期研究,争论已持续多年。

LSTM之父向何恺明开炮:我学生才是残差学习奠基人

量子位
量子位 · 2025-10-19T14:49:10Z
ERVQ: 基于内外码本优化的增强残差矢量量化神经音频编解码器 | TASLP2025

本文提出了一种增强的残差矢量量化(ERVQ)方法,通过优化码本内外来解决码本崩溃问题,从而提升神经音频编解码器的性能。实验结果表明,ERVQ在多种模型和比特率下显著提高了音频质量和泛化能力。

ERVQ: 基于内外码本优化的增强残差矢量量化神经音频编解码器 | TASLP2025

实时互动网
实时互动网 · 2025-09-08T06:26:40Z

本文介绍了VITAL策略学习框架,通过将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知,提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位,并通过触觉反馈实现高精度操作,克服了模仿学习和强化学习的局限性。

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

结构之法 算法之道
结构之法 算法之道 · 2025-07-03T09:01:43Z

机器之心数据服务已上线,提供高效稳定的数据获取,帮助用户轻松获取所需数据。

ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!

机器之心
机器之心 · 2025-06-27T08:23:00Z

本研究提出轨迹贝尔曼残差最小化(TBRM)算法,旨在优化大型语言模型(LLM)推理中的基于值的方法。TBRM有效应用贝尔曼残差最小化思想,消除对评论家和重要性采样的需求。实验结果表明,TBRM在数学推理基准上优于基于政策的方法,同时计算和内存开销相似或更低,证明基于值的强化学习能有效提升LLM推理能力。

轨迹贝尔曼残差最小化:一种简单的基于值的方法用于大型语言模型推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种深度乘积单元残差神经网络(PURe),有效解决了深度卷积网络在表达能力和参数效率方面的问题。PURe在多个数据集上超越了深层ResNet,展现出更快的收敛速度和更强的抗噪声能力,显示了其在计算机视觉中的应用潜力。

深度残差学习与乘积单元

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本研究提出动态差异感知时间残差网络(DDaTR),有效解决了纵向放射报告生成中空间和时间特征提取不足的问题,显著提升了报告生成的性能和准确性,具有重要的临床应用潜力。

DDaTR:动态差异感知时间残差网络用于纵向放射报告生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究针对声音转换中源说话者的音色信息泄露问题,提出了一种新的解决方案,即引入残差块作为内容提取器。研究证明,通过通用语义字典的内容特征重表达模块,该方法能够有效减轻音色泄露,从而显著提高目标说话者的相似度。

通过通用语义映射残差块减轻声音转换中的音色泄露

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-11T00:00:00Z

本研究提出了一种新方法ReDRAW,旨在解决模拟与现实动态不一致的问题。通过对潜在状态动态进行残差校正,ReDRAW优化了强化学习代理的想象回合,有效避免了传统方法的过拟合现象。

使用潜在状态动态残差调整世界模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z
DR-MPC:用于现实社会导航的深度残差模型预测控制

本文提出了一种深度残差模型预测控制(DR-MPC)方法,旨在帮助机器人安全高效地在复杂人群中导航。DR-MPC结合了模型预测控制(MPC)与无模型深度强化学习(DRL),有效克服了传统DRL在数据需求和初始行为安全性方面的不足。实验结果表明,DR-MPC在模拟和现实环境中表现优异,能够在少于4小时的训练数据下应对各种拥挤情况。

DR-MPC:用于现实社会导航的深度残差模型预测控制

Apple Machine Learning Research
Apple Machine Learning Research · 2025-03-06T00:00:00Z
M2R2:多速率残差混合框架用于高效的变换器推理

残差变换提升了大型语言模型的表现力,但静态应用导致效率与生成质量的权衡不理想。我们提出了多速率残差混合框架(M2R2),通过动态调节残差速度来提高推理效率。评估结果显示,M2R2在推理任务中超越现有方法,实现最高2.9倍的加速,特别适合资源受限的环境。

M2R2:多速率残差混合框架用于高效的变换器推理

Apple Machine Learning Research
Apple Machine Learning Research · 2025-03-05T00:00:00Z

本研究针对深度残差网络在对抗性鲁棒性和网络可认证性方面存在的挑战,提出了一种基于线性矩阵不等式(LMI)框架的新方法设计L-利普希茨深度残差网络。通过使用格尔什戈林圆定理来近似特征值位置,我们提供了一种构造利普希茨约束网络的可证明参数化方法,以提升网络设计的鲁棒性,尽管存在对非线性动态性能的抑制问题。

L-利普希茨格什戈林残差网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-28T00:00:00Z

本研究解决了当前基于大语言模型(LLMs)的表格数据生成方法的局限性,特别是随机示例选择导致的生成质量下降。提出了一种创新的上下文学习框架TabGen-ICL,通过迭代方式从真实样本中检索代表残差的子集,显著提高了生成质量,并在五个真实世界表格数据集上表现出优越性,误差率减少了3.5%-42.2%。

TabGen-ICL:残差意识的上下文示例选择用于表格数据生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-23T00:00:00Z

本研究针对自监督学习在音乐理解任务中的应用,提出了一种新的音乐表征学习模型MuQ。与以往采用随机投影或现有神经编解码器的研究不同,MuQ通过梅尔残差向量量化(Mel-RVQ)生成的token进行训练,显著提升了提取目标的稳定性和效率。实验结果表明,MuQ在多项下游任务上超越了之前的自监督音乐表征模型,具有重要的应用潜力。

MuQ:基于梅尔残差向量量化的自监督音乐表征学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-02T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码