小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

DeepSeek-V3.2-Exp模型已在华为云上线,采用稀疏Attention架构,提升推理效率,降低资源消耗,支持160K长序列,适合企业和开发者使用。

DeepSeek-V3.2-Exp第一时间上线华为云

量子位
量子位 · 2025-09-29T15:38:09Z

Mamba探讨了状态空间模型(SSMs)与Transformer的优劣,指出Attention并非万能,SSMs在处理长序列信息时更具优势。Mamba在同规模下超越Transformer,强调混合模型的潜力,未来可能结合两者优势开发新架构。

Mamba一作预告新架构!长文论述Transformer≠最终解法

量子位
量子位 · 2025-07-09T05:14:41Z
SMUGGLER:亚二次方多尺度统一生成门控语言编码器-表示

本文介绍了SMUGGLER,一种新型层次神经网络架构,计算复杂度为O(n log n),能高效处理长序列。该模型通过字节级预测,消除了嵌入表和注意力瓶颈,显著降低内存需求,适用于消费级硬件,性能与更多参数的模型相当。

SMUGGLER:亚二次方多尺度统一生成门控语言编码器-表示

DEV Community
DEV Community · 2025-05-11T17:54:29Z
清华稀疏Attention,无需训练加速一切模型!

清华大学陈键飞团队提出的稀疏注意力机制SpargeAttn,无需训练即可加速多种模型,推理速度提升4-7倍,同时保持端到端精度,有效解决长序列任务的计算瓶颈。

清华稀疏Attention,无需训练加速一切模型!

机器之心
机器之心 · 2025-03-27T02:28:37Z

本研究提出了ATTENTION2D方法,旨在解决传统自注意力机制在处理长序列时的计算和内存成本问题。该方法通过查询与键/值维度的并行性,实现了高效的分布与并行化,实验结果显示训练和推理速度提升了5至9.4倍。

ATTENTION2D: A Communication-Efficient Distributed Self-Attention Mechanism

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z
一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

DeepSeek 开源的 FlashMLA 是针对 Hopper GPU 优化的高效 MLA 解码内核,支持变长序列处理,提升 LLM 推理效率。它借鉴了 FlashAttention 和 cutlass,采用低秩分解等技术,显著降低内存和计算需求,适合长序列和实时应用。FlashMLA 的开源将惠及更多开发者,推动 AI 创业。

一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

爱范儿
爱范儿 · 2025-02-24T06:20:15Z
解锁效率:LServe在长序列语言模型中的突破

LServe是一项创新技术,旨在提高长序列语言模型的处理效率。它通过混合稀疏注意机制,解决计算复杂性和内存问题,显著提升速度和准确性。LServe在金融和医疗等行业具有广泛应用,能够快速分析大量数据,优化工作流程。

解锁效率:LServe在长序列语言模型中的突破

DEV Community
DEV Community · 2025-02-24T01:35:49Z

本研究提出LServe系统,旨在解决长序列大型语言模型在预填充和解码阶段的计算复杂度和内存占用问题。通过混合稀疏注意力,该系统使预填充速度提升近2.9倍,解码速度提升1.3-2.1倍,同时保持长序列的精度。

LServe: Efficient Long-Sequence LLM Service with Unified Sparse Attention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出LASP-2序列并行方法,优化线性注意力的右乘特性,显著提升长序列训练的通信和计算并行性,训练速度比LASP快15.2%,比环形注意力快36.6%。

LASP-2: Rethinking Sequence Parallelism of Linear Attention and Its Hybrid Methods

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本文探讨了传统Softmax注意力在推理令牌长度增加时的数值不稳定和性能下降问题。提出了一种新颖的Softplus注意力机制,结合动态长度尺度因子和重新加权,显著提升了大型语言模型在处理长序列时的稳定性和性能。

Softplus Attention with Re-weighting Enhances Length Extrapolation Capability in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究提出了TreeKV,一种直观且无需训练的键值缓存压缩方法,旨在解决长序列和资源有限环境中的信息保留问题。TreeKV通过树结构实现平滑缓存压缩,在语言建模任务中表现优异,相比基线模型在长上下文中显著提升性能,最佳效率仅需6%的预算。

TreeKV:基于树结构的平滑键值缓存压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究首次全面评估RWKV模型,填补了系统性综述的空白。RWKV通过独特的递归框架有效处理长序列,降低计算成本,展现出优越性能,并指出未来研究方向。

A Review of the RWKV Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本研究提出了一种高效的Perceiver基架构(Long LoRA Perceiver - LLP),旨在解决Transformer在长序列处理中的复杂度问题。通过引入三种结构增强,该架构在自回归建模中实现了高性能与计算效率的平衡,实验结果表明其在多个基准测试中超越了最新的Transformer模型。

Enhanced Computationally Efficient Long LoRA Inspired Perceiver Architecture for Auto-Regressive Language Modeling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-08T00:00:00Z

InfiniDreamer是一个新框架,解决了现有运动生成方法只能生成短序列的问题。它通过生成与文本描述对应的子运动,并利用片段评分蒸馏(SSD)优化长序列,从而能够生成一致且具上下文意识的任意长度运动序列。实验结果表明,该方法优于现有技术。

InfiniDreamer:通过片段评分蒸馏实现任意长度的人类运动生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z
Extending Context Length to One Million Tokens!

Qwen2.5-Turbo新版本支持1M tokens的上下文,显著提升了处理长序列的能力,准确率达到100%。推理速度提高4.3倍,价格保持不变。该模型在长文本任务中表现优异,超越GPT-4,短文本任务性能也未受影响。未来将继续优化长序列处理能力。

Extending Context Length to One Million Tokens!

Blog on Qwen
Blog on Qwen · 2024-11-14T16:00:03Z
第30天:Reformer:大规模模型的高效Transformer

Reformer模型通过局部敏感哈希注意力和可逆层显著降低了内存和计算成本,同时保持高准确性,适用于长序列的语言建模、文档分析和基因组学等任务,提升了计算效率和可扩展性。

第30天:Reformer:大规模模型的高效Transformer

DEV Community
DEV Community · 2024-11-09T13:03:30Z

本研究提出了一种新方法,通过张量化长输入序列,解决了长序列建模中注意力模型的依赖性和效率问题,显著提升了推断速度和扩展能力。

长序列建模与注意力张量化:从序列到张量学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

北京大学的林宙辰和徐鑫提出了MixCon,一种新型混合序列建模架构,结合Transformer层、Conba层和MoE组件,提升了计算和内存效率。实验显示,MixCon在长序列处理上优于现有模型,并在多个基准测试中表现出色。未来仍有改进空间。

北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

机器之心
机器之心 · 2024-10-15T07:03:13Z
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

自Transformer模型出现后,研究者重新关注RNN模型。Yoshua Bengio团队提出minLSTM和minGRU,通过去除隐藏状态依赖,实现并行训练,提高速度和效率。实验显示,这些模型在多项任务中表现优异,尤其在长序列任务中表现突出,显示了RNN的潜力。

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

机器之心
机器之心 · 2024-10-14T04:44:45Z

本研究使用InAttention替代自注意力机制,解决了变压器模型在上下文长度增加时VRAM需求增加的问题。该方法使VRAM使用量与上下文长度线性增长,降低资源需求,支持在消费级GPU上处理长序列。研究表明,微调可以在不增加训练成本的情况下扩展上下文长度,提升长序列性能。

InAttention:变压器的线性上下文扩展

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码