小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」

Kimi团队的《Attention Residuals》报告改进了残差连接结构,显著提升了大模型的训练效率。在相同算力下,该方法的效果相当于基线模型1.25倍算力的成果,获得硅谷AI界的认可,标志着深度学习基础范式的变革。

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」

爱范儿
爱范儿 · 2026-03-18T09:30:39Z
注意残差

本文提出了一种名为注意残差(AttnRes)的方法,以改善大规模语言模型中的残差连接。传统方法使用固定权重累积层输出,导致隐藏状态随深度增长而失控。AttnRes通过软最大注意力聚合前层输出,使每层能够根据输入选择性聚合先前表示。为降低大规模模型训练的内存和通信开销,提出了块级注意残差(Block AttnRes),通过分块处理层来减少内存占用,同时保持性能提升。实验表明,AttnRes在不同模型规模中有效改善了输出均匀性和下游任务表现。

注意残差

Nathan Chen
Nathan Chen · 2026-03-16T00:00:00Z

本研究提出了一种分数连接方法,解决了深度网络训练中超连接的高内存访问成本问题。通过将隐藏状态划分为多个部分,分数连接在大规模语言任务上显著优于传统的残差连接。

Fractional Connections: Partial Expansion of Hyperconnections

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究探讨了残差连接在特征重用中的局限性,并提出两种迭代改进方法,结果表明在特定情况下模型的图像分类性能有所提升。

Residual Pathways: Enhancing Feature Reuse in Residual Connections

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节跳动的豆包大模型团队提出了超连接(Hyper-Connections),作为残差连接的替代方案,有效解决了梯度消失和表示崩溃的问题。该方法在Dense和MoE模型的预训练中显著提升性能,收敛速度提高了80%。超连接通过动态调整连接权重,适用于大规模语言模型和视觉任务,具有广泛的应用前景。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

机器之心
机器之心 · 2024-11-07T06:36:29Z

本研究探讨了神经网络中高斯-牛顿矩阵的条件性,理论上界定了深度线性网络的条件数,并扩展至两层ReLU网络,分析了残差连接和卷积层的影响,提供了重要见解。

The Theoretical Characterization of Gaussian-Newton Conditions in Neural Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

论文提出ClearCLIP,通过去除残差连接、采用自注意力机制和舍弃前馈网络,提升了CLIP在开放词汇语义分割中的表现。研究表明,残差连接降低了分割质量,而ClearCLIP能够生成更清晰的分割图,改善密集视觉-语言推理任务的效果。

ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-10-29T01:31:00Z

研究人员通过重新研究CLIP架构,提出了一种名为ClearCLIP的新方法,用于增强开放词汇的语义分割。ClearCLIP消除了残差连接,实施了自我关注,并舍弃了前馈网络。在多个基准测试中,ClearCLIP生成更清晰、更准确的分割地图,并在性能上优于现有方法。

ClearCLIP: 分解 CLIP 表示以进行稠密视觉 - 语言推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z
深入解析随机 Transformer [译]

本文介绍了解码器模块的工作原理,包括自注意力层、残差连接和层归一化、编码器-解码器注意力层和前馈层。解码器通过自回归方式生成输出序列的下一个token,并利用编码器的输出进行注意力互动。最后,通过线性层和softmax层将解码器的输出转换成概率,并使用贪婪解码选择最可能的下一个token。文章还提供了一个随机编码器-解码器Transformer的示例,并介绍了生成输出序列的过程。

深入解析随机 Transformer [译]

宝玉的分享
宝玉的分享 · 2024-01-03T12:07:00Z

本研究提出了一种解决多语言神经机器翻译中零翻译问题的方法,通过移除编码器层中的残差连接,使模型表示更加与特定语言对应。实验证明,该方法在零翻译任务上获得了18.5个BLEU点的提升,并在其他有监督的翻译中表现出高质量。同时,通过对隐藏层输出的检查,证明该方法能够获得更多的语言无关性。

大型语言模型的零样本位定偏差

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-02T00:00:00Z

本研究提出了一种有效缓解多语言神经机器翻译中零翻译问题的方法,通过移除编码器层中的残差连接,使模型表示更加与特定语言对应。在零翻译任务中,我们获得了18.5个BLEU点的提升,并在其他有监督的翻译中保持了高质量表现。通过对隐藏层输出的检查,我们证明了该方法能够获得更多的语言无关性。

探索语言相似性和零样本学习用于德拉维多语言的多语种翻译

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-10T00:00:00Z

该文介绍了设计轻量化网络模型的策略,包括使用较少的卷积层和全连接层、加入注意力机制、使用残差连接等。同时,给出了一个简单的轻量化网络模型的实现,使用CIFAR-10数据集进行训练和测试,该模型只使用了3个卷积层和1个全连接层,但在CIFAR-10数据集上能够达到70%的准确率。

如何设计一个轻量化网络模型 - Xu_Lin

Xu_Lin
Xu_Lin · 2023-05-02T14:52:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码