小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了大语言模型在推理阶段的退化现象,如死循环和乱码等问题。退化源于自回归Transformer的注意力机制和数值精度,导致输出失控。文章分析了退化的数学根源、表现形式及其机制,并提出了多层防御策略,包括架构设计、数值工程和解码策略,以提高模型在生产环境中的稳定性。

【Transformer 与注意力机制】59|推理退化:为什么大模型会输出乱码、死循环和无意义文本

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-06-09T00:00:00Z
Transformer压缩天赋解析:注意力机制暗藏超级计数器

Transformer模型在语言描述的简洁性上表现优异,能够用更小的模型表达复杂语言,展现出指数级和双指数级的优势。其注意力机制提高了信息处理的效率,但验证其能力非常困难,达到EXPSPACE完全级别。

Transformer压缩天赋解析:注意力机制暗藏超级计数器

极道
极道 · 2026-06-05T23:03:00Z
《GPT 图解》笔记:QKV、多头注意力及掩码

本文探讨了注意力机制中的QKV、多头注意力和掩码。QKV分别代表查询、键和值,通过矩阵变换提取特征。多头注意力将输入分为多个子空间,从不同角度学习特征。掩码用于将不重要的信息权重设为接近“0”,以优化注意力计算。

《GPT 图解》笔记:QKV、多头注意力及掩码

Ying’s Blog
Ying’s Blog · 2026-05-30T01:09:06Z
无聊是一种很新的病

现代人因过度依赖手机和短视频,逐渐失去与“无聊”相处的能力。德国哲学家韩炳哲指出,注意力被多种刺激分散,导致精神疲惫。心理学家米哈里提出“心流”概念,强调专注于有挑战性的活动能带来真正的快乐。人们需重新学会享受无聊,找到内心的平静。

无聊是一种很新的病

太隐
太隐 · 2026-05-27T13:52:05Z
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

快手发布了多模态大模型Keye-VL-2.0-30B-A3B,具备深度视频理解能力,采用DSA机制处理超长视频上下文,提升推理效率和准确性。该模型能够精准识别视频细节,提供高情商建议,并在复杂任务中展现强大的逻辑推理能力,标志着快手在多模态理解和自动化调度方面的重大进展,推动内容生产智能化。

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

量子位
量子位 · 2026-05-26T10:17:39Z
《GPT 图解》笔记:Seq2Seq及点积注意力

本文介绍了Seq2Seq模型及其点积注意力机制。Seq2Seq用于机器翻译,通过编码器将输入序列转换为上下文表示,解码器生成输出序列。点积注意力计算输入矩阵的相似度,帮助解码器关注输入序列中的重要部分,从而提高上下文捕捉能力,增强翻译效果。

《GPT 图解》笔记:Seq2Seq及点积注意力

Ying’s Blog
Ying’s Blog · 2026-05-24T11:10:44Z
为什么必须戒短视频

短视频的普及导致人们,尤其是儿童的注意力下降。长时间观看短视频会削弱专注力,而阅读和写作是有效的对抗方式。尽管现代社会偏好多媒体,文字依然重要,能够训练专注力并抵御短视频的影响。

为什么必须戒短视频

joojenZhou 个人网站
joojenZhou 个人网站 · 2026-05-23T06:01:25Z
注意力 Harness:多 Agent 时代如何守住人的注意力

文章探讨了多Agent时代的挑战,强调人类在监督异步执行的Agent时角色的变化。Cliplet是一个轻量级工具,旨在管理Agent的状态和任务,而非直接执行。Attention Harness则优化人类的注意力分配,确保在必要时才打断用户,从而提升工作效率。

注意力 Harness:多 Agent 时代如何守住人的注意力

phodal
phodal · 2026-05-17T10:29:00Z

本文探讨了控制论视角下的AI编码,强调阿什比的必要多样性定律对AI编码的影响。随着环境复杂性的增加,AI在生成代码时面临控制失效的风险。文章分析了控制系统的五个组件及其相互作用,指出AI在编码中的角色和局限性,强调人类在控制回路中的重要性,并提出有效的控制架构和注意力管理策略,以确保AI的可靠性和有效性。

控制论视角下的 AI 编码:二阶系统、放大器与注意力的最优分配

Guyskk的博客
Guyskk的博客 · 2026-05-17T08:00:00Z
人类情境工程

我意识到AI消耗了我的注意力,虽然它能快速生成代码,但我在处理多个未完成项目时难以判断。为改善这种情况,我决定每天专注于三个重要工作流,并在开始前进行充分思考和规划。这样,我的工作负担减轻,完成的任务反而增多。AI让我学会了更谨慎地管理思维,而不是单纯追求并行处理。

人类情境工程

OnionTalk
OnionTalk · 2026-05-16T10:00:00Z

正念冥想是一种认知训练,旨在提升注意力和觉察力。通过专注于当下体验,帮助人们接受情绪,减少焦虑。其核心在于有意识的注意、不带评判、全然当下和接纳,从而改善情绪调节能力,增强自我意识,促进心理健康。

正念冥想全解惑:从原始出厂设置到大脑物理重塑

Limboy
Limboy · 2026-05-12T00:00:00Z
听力差走路慢?苹果研究实锤:耳朵真能拖慢你的腿 | 速查听力保健康

研究表明,听力下降会导致走路速度减慢。苹果与密歇根大学分析了五万多人的数据,发现听力差的人步伐明显变慢。这是因为大脑在处理听觉信息时会分散注意力,影响走路速度。建议每年进行听力测试,以便及时发现问题并采取措施。走路速度被视为重要的健康指标,反映整体身体状况。

听力差走路慢?苹果研究实锤:耳朵真能拖慢你的腿 | 速查听力保健康

极道
极道 · 2026-05-11T01:30:00Z

神经网络通过前向传播、损失计算、反向传播和梯度下降进行训练。每个神经元执行线性打分和非线性激活,多个神经元组成层,层与层之间的非线性使网络能够拟合复杂函数。递归神经网络(RNN)通过引入状态,克服了多层感知器(MLP)在序列任务中的局限性。训练过程是参数在损失曲面上逐步优化的过程。

【Transformer 与注意力机制】08.5 神经网络基础:从 MLP 到 RNN 的最后一块地基

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-10T00:00:00Z
DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek-V4系列模型推出了1.6T和284B参数的两个版本,采用混合注意力架构和流形约束超连接,提升了长上下文处理效率。通过Muon优化器和多项基础设施优化,模型在训练和推理阶段展现出更高的稳定性和效率。预训练后,DeepSeek-V4在多个基准测试中超越前代,设立了新的性能标准。

DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

结构之法 算法之道
结构之法 算法之道 · 2026-05-03T15:54:48Z
Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

OpenMythos是一种新型的循环深度Transformer架构,采用MoE路由机制,通过跨专家权重共享实现高效推理。在参数量减少近一半的情况下,其性能与传统模型相当。研究表明,循环Transformer在处理未见知识组合和深度推理方面表现更佳,可能改变大模型的训练方式,受到学术界关注。

Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

量子位
量子位 · 2026-04-20T07:59:51Z
科技爱好者周刊(第 393 期):脑腐状态

文章讨论了“脑腐”现象,即思维能力下降和注意力不集中,主要由于网络短视频和标题党文章的影响。长期接触这些内容使人难以深入思考,学习变得困难。建议将学习拆解为短问题,以保持专注。

科技爱好者周刊(第 393 期):脑腐状态

阮一峰的网络日志
阮一峰的网络日志 · 2026-04-16T23:20:16Z

本文讨论了将单次点积扩展为批量点积的矩阵乘法,强调其在Transformer中的重要性。矩阵乘法通过并行计算显著提高了效率,尤其在GPU上。文章介绍了矩阵的基本定义、转置、乘法性质及其几何意义,强调了形状匹配的重要性,并指出矩阵乘法在深度学习中的广泛应用,如注意力机制和全连接层,揭示了其在AI计算中的核心地位。

【Transformer 与注意力机制】03 矩阵乘法的两种视角

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T03:00:00Z

点积是衡量向量对齐程度的重要运算,结合了长度和方向。在Transformer中,点积用于高效计算注意力。其代数和几何定义相辅相成,代数便于计算,几何提供直观理解。点积在高维空间有效,但需注意随机向量趋于正交的现象。与其他相似度度量相比,点积在工程应用中,尤其是在GPU并行计算时更具优势。

【Transformer 与注意力机制】02 向量与点积的几何直觉

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T02:00:00Z

本文探讨了循环神经网络(RNN)在处理变长序列中的应用及其局限性。RNN通过权重共享和记忆机制处理序列数据,但存在长程依赖、梯度消失和训练并行性等问题。LSTM和GRU作为RNN的变体,通过门控机制改善了这些问题。尽管RNN在早期自然语言处理和机器翻译中发挥了重要作用,但随着Transformer的出现,其应用逐渐减少。

【Transformer 与注意力机制】09 RNN 与序列建模:Transformer 之前的世界

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文探讨了预训练模型的三种主要目标:自回归语言建模(GPT)、掩码语言建模(BERT)和去噪序列到序列(T5/BART)。每种方法在训练任务上有所不同,导致模型在生成、理解和条件生成能力上的差异。GPT专注于续写,BERT擅长理解,而T5/BART兼顾生成与理解。最终,GPT因其统一接口和扩展性成为主流。

【Transformer 与注意力机制】30|预训练目标:BERT、GPT、T5 其实在学三种不同的事

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码