小红花·文摘 - 小红花技术领袖俱乐部

缓解 TTS 的重复与漏读：用注意力引导消除语音合成中的稳定性幻觉

缓解 TTS 的重复与漏读：用注意力引导消除语音合成中的稳定性幻觉

实时互动网 ·

解密注意力切换机制：大脑先抓新声音再放旧声音

解密注意力切换机制：大脑先抓新声音再放旧声音

极道 ·

大模型推理路由难题反而催生稀疏注意力？

大模型推理路由难题反而催生稀疏注意力？

极道 ·

基于长音频编码的分段注意力解码

基于长音频编码的分段注意力解码

Apple Machine Learning Research ·

注意力机制之后是什么？这家初创公司表示它已经知道了。

注意力机制之后是什么？这家初创公司表示它已经知道了。

The New Stack ·

大语言模型的基石：Transformer 入坑笔记（三） - 注意力机制和 Transformer

大语言模型的基石：Transformer 入坑笔记（三） - 注意力机制和 Transformer

I'm OWenT ·

FlashAttention通过分块在线softmax优化Transformer的注意力机制，显著降低显存和计算速度瓶颈。它采用流式计算，避免物化整个分数矩阵，减少内存访问，提高效率。实测表明，FlashAttention在长序列处理上具有显著优势，并在反向传播时通过重算降低显存需求。

【GPU 算子工程】FlashAttention：在线 softmax 与 IO-aware 注意力

土法炼钢兴趣小组的博客 ·

Neuron最新研究：丘脑才是注意力真正的老板

Neuron最新研究：丘脑才是注意力真正的老板

极道 ·

Instagram想要垄断你的注意力

Instagram想要垄断你的注意力

The Verge ·

$Humanoid-GPT——采用因果注意力机制的类GPT追踪器：通过扩展“数据规模、模型结构、训练多样性”，最终实现零样本动作追踪$

Humanoid-GPT——采用因果注意力机制的类GPT追踪器：通过扩展“数据规模、模型结构、训练多样性”，最终实现零样本动作追踪

结构之法算法之道 ·

Firefox的新主页小部件帮助我集中注意力

Firefox的新主页小部件帮助我集中注意力

The Verge ·

大脑为了集中注意力会自动屏蔽难听的话｜新研究推翻直觉

大脑为了集中注意力会自动屏蔽难听的话｜新研究推翻直觉

极道 ·

程序员在工作中最缺乏的是注意力，复杂性和多任务处理会降低效率。与智能代理协作时，建议逐步交代任务，避免分心，保持专注，以提高工作产出。开始前应明确预期，并关注代理的思考过程，及时纠正问题。

工作中最稀缺的是什么？

Posts on WKLKEN THINKING ·

本文探讨了大语言模型在推理阶段的退化现象，如死循环和乱码等问题。退化源于自回归Transformer的注意力机制和数值精度，导致输出失控。文章分析了退化的数学根源、表现形式及其机制，并提出了多层防御策略，包括架构设计、数值工程和解码策略，以提高模型在生产环境中的稳定性。

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

土法炼钢兴趣小组的博客 ·

Transformer压缩天赋解析：注意力机制暗藏超级计数器

Transformer压缩天赋解析：注意力机制暗藏超级计数器

极道 ·

《GPT 图解》笔记：QKV、多头注意力及掩码

《GPT 图解》笔记：QKV、多头注意力及掩码

Ying’s Blog ·

无聊是一种很新的病

无聊是一种很新的病

太隐 ·

将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式

量子位 ·

《GPT 图解》笔记：Seq2Seq及点积注意力

《GPT 图解》笔记：Seq2Seq及点积注意力

Ying’s Blog ·

为什么必须戒短视频

为什么必须戒短视频

joojenZhou 个人网站 ·