小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
标记的旅程:变换器内部究竟发生了什么

本文介绍了变换器模型如何将输入标记转换为上下文感知的表示和下一个标记的概率。文本经过标记化和嵌入处理,加入位置信息。通过多头注意力机制和前馈神经网络,逐层提取和丰富标记的上下文信息,最终通过线性层和softmax计算生成下一个标记的概率。这一过程展示了大型语言模型的文本处理与生成能力。

标记的旅程:变换器内部究竟发生了什么

MachineLearningMastery.com
MachineLearningMastery.com · 2025-11-26T14:24:54Z
使用PyTorch从零开始构建变换器模型(10天迷你课程)

本文介绍了如何使用PyTorch从零开始构建变换器模型的10天迷你课程,涵盖数据收集、分词器训练、位置编码和注意力机制等关键组件,适合有一定编程和机器学习基础的开发者。每节课约30分钟,通过实践,学员将掌握构建和训练变换器模型的技能。

使用PyTorch从零开始构建变换器模型(10天迷你课程)

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-12T03:45:31Z
使用变换器进行实时手势识别

手势和符号识别是计算机视觉的新兴领域,利用变换器模型(如ViT)构建实时手势识别工具。教程介绍了如何使用小型数据集训练变换器模型,并通过Gradio应用实现实时手势分类。强调可访问性和伦理问题,建议在实际应用中考虑多样性和用户需求。

使用变换器进行实时手势识别

freeCodeCamp.org
freeCodeCamp.org · 2025-10-06T13:39:30Z
构建类似于Llama-2和Llama-3的仅解码器变换器模型

本文介绍了如何构建一个仅解码器的变换器模型,类似于Meta的Llama-2和Llama-3。该模型专注于文本生成,通过自监督学习进行训练,使用古腾堡项目的小说作为数据集,最终能够根据输入提示生成连贯的文本。

构建类似于Llama-2和Llama-3的仅解码器变换器模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-08-04T16:02:37Z
变换器模型中的跳跃连接

跳跃连接在变换器模型中至关重要,解决了深层网络中的梯度消失问题。它们通过直接连接输入和输出,促进信息流动,使模型能够学习残差函数。文章还讨论了预归一化和后归一化架构的区别,前者在训练稳定性和收敛速度上表现更佳,适用于现代变换器模型。

变换器模型中的跳跃连接

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-04T03:33:11Z
变换器模型中的混合专家架构

混合专家(MoE)架构在变换器模型中引入稀疏性,允许模型高效扩展而不增加计算成本。MoE通过多个专家模型处理输入,使用路由器选择合适的专家。每个变换器层都有独立的专家集,激活部分参数以提升性能。MoE的实现包括专家网络、路由机制和输出组合,能够在保持低计算资源的同时提升模型表现。

变换器模型中的混合专家架构

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-01T03:19:28Z
变换器模型中的线性层和激活函数

本文讨论了变换器模型中线性层和激活函数的重要性。它们使模型能够进行非线性变换,学习复杂模式。前馈网络通常包含多个线性层和激活函数,如GELU和SwiGLU,激活函数引入非线性,帮助模型更好地处理输入数据。

变换器模型中的线性层和激活函数

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-30T01:45:34Z
变换器模型中的LayerNorm和RMS Norm

本文探讨了变换器模型中的归一化技术,重点介绍了LayerNorm和RMS Norm。归一化层在深度学习中至关重要,有助于稳定训练并加速收敛。LayerNorm通过计算均值和方差对输入进行归一化,而RMS Norm则仅进行缩放。理解这些技术有助于构建更稳定和高效的变换器架构。

变换器模型中的LayerNorm和RMS Norm

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-28T01:33:58Z
变换器模型中的位置编码

本文介绍了变换器模型中的位置编码,强调其在自然语言处理中的重要性。位置编码帮助模型理解词语顺序,主要有四种类型:正弦位置编码、学习位置编码、旋转位置编码和相对位置编码。每种编码方式各有优缺点,正弦编码适用于长序列,学习编码适应数据特征,旋转编码提高性能,相对编码关注词间距离。

变换器模型中的位置编码

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-15T05:06:17Z
变换器模型中的编码器和解码器

本文探讨了变换器模型中的编码器和解码器。完整的变换器模型结合编码器和解码器,适用于序列到序列任务,如机器翻译。编码器处理输入序列并生成上下文表示,解码器则生成输出序列。编码器-仅模型(如BERT)用于理解任务,解码器-仅模型(如GPT-2)用于生成任务。理解这些差异对选择合适的模型至关重要。

变换器模型中的编码器和解码器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-24T20:07:11Z

本文介绍了一种名为Moonbeam的变换器模型,旨在解决符号音乐建模中的数据效率和模型能力不足问题。Moonbeam通过创新的标记化方法和多维相对注意力机制,超越了其他大型预训练模型,推动了音乐生成研究的发展。

月光:一种同时利用绝对和相对音乐属性的MIDI基础模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出因果头门控方法(CHG),旨在解决变换器模型中注意力头功能理解的不足。该方法通过学习软门控,为注意力头提供因果分类,适用于各种数据集,揭示因果关系。研究发现多个稀疏子电路,指令遵循和上下文学习依赖于可分离机制。

因果头门控:解释变换器中注意力头角色的框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
理解变换器中的文本生成参数

本文探讨了变换器模型中控制文本生成的关键参数,包括温度、Top-K和Top-P采样、重复惩罚等。通过调整这些参数,可以优化生成文本的质量和多样性。低温度产生更确定的输出,高温度则增加创造性。Top-K和Top-P控制可选词汇范围,避免重复的参数有助于生成更自然的文本。此外,介绍了贪婪解码和束搜索等生成策略,以满足不同应用需求。

理解变换器中的文本生成参数

MachineLearningMastery.com
MachineLearningMastery.com · 2025-04-21T10:38:33Z

本文提出了一种名为AttentionDrop的新型随机正则化方法,旨在解决变换器模型在训练数据有限或噪声较大时的过拟合问题。该方法通过三种变体直接作用于自注意力分布,显著提高了模型的鲁棒性和输出稳定性。

AttentionDrop: A Novel Regularization Method for Transformer Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z
在变换器中生成和可视化上下文向量

本文介绍了如何使用变换器模型生成和可视化上下文向量。上下文向量是根据句子中周围词语动态变化的数值表示,能够捕捉词语在特定上下文中的含义。文章涵盖了上下文向量的生成、提取、词义消歧及注意力模式的可视化,展示了变换器模型在自然语言处理中的应用。

在变换器中生成和可视化上下文向量

MachineLearningMastery.com
MachineLearningMastery.com · 2025-04-14T18:04:44Z
4o图像生成 - 扩散/变换器交叉趋势?

三月,谷歌和OpenAI推出新图像生成工具,支持连续生成和编辑,文本渲染效果更佳,采用扩散模型与变换器模型结合。二月,Inception Labs与中国团队发布新LLM,应用扩散模型提升生成速度。LLM与图像生成的交叉发展值得关注。

4o图像生成 - 扩散/变换器交叉趋势?

DEV Community
DEV Community · 2025-03-31T07:53:37Z

本研究探讨了变换器模型(如BERT和GPT)在自然语言处理中的应用,提出了一种新方法,显著提升了机器对人类文本的理解能力,尤其在长范围依赖性和特征提取方面表现突出。

Advancements in Natural Language Processing: Exploring Transformer-Based Text Understanding Architectures

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z

本研究提出了XAttention框架,旨在解决长上下文变换器模型的计算成本问题。通过稀疏注意力加速推理,利用反对角值之和作为块重要性代理,实现高效的块识别与剪枝,最终实现高达13.5倍的计算加速。

XAttention: Block Sparse Attention with Antidiagonal Scoring

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

《百页语言模型书》由安德里·布尔科夫撰写,旨在帮助读者理解大型语言模型(LLM)。书中涵盖机器学习基础、语言模型原理、递归神经网络、变换器模型及现代LLM的影响,适合初学者和专业人士,提供深入的技术基础,助力人工智能领域的学习与应用。

《百页语言模型书:大型语言模型的精彩技术入门》

KDnuggets
KDnuggets · 2025-03-13T14:00:47Z
高效流式音视频主动说话者检测系统

本文探讨了主动说话者检测(ASD)的挑战,并提出了两种方法以应对实时系统中的延迟和内存问题:一是限制模型使用的未来上下文帧数量,二是限制推理时访问的过去帧数量。实验结果表明,受限的变换器模型在性能上可与最先进的递归模型相媲美,同时显著减少上下文帧数量。

高效流式音视频主动说话者检测系统

Apple Machine Learning Research
Apple Machine Learning Research · 2025-03-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码