小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
变换器的思维方式:驱动语言模型运作的信息流

大型语言模型(LLMs)利用变换器架构将文本转化为数字表示。文本首先被分割为标记,随后每个标记转化为向量并注入位置信息。模型通过多头注意力机制和前馈神经网络逐步学习文本关系,最终预测下一个单词,从而生成连贯的输出。

变换器的思维方式:驱动语言模型运作的信息流

KDnuggets
KDnuggets · 2025-12-15T15:00:43Z
从零开始编码大型语言模型 – 理论到强化学习与人类反馈

这篇文章介绍了一个免费的YouTube课程,教你如何从零开始使用PyTorch构建大型语言模型(LLM)。课程由AI专家Vivek Kalyanarangan创建,内容包括变换器架构、小型LLM训练、现代增强、扩展技术、专家混合层和奖励建模,旨在深入理解LLM的原理与应用。

从零开始编码大型语言模型 – 理论到强化学习与人类反馈

freeCodeCamp.org
freeCodeCamp.org · 2025-09-23T12:36:57Z
10个大型语言模型关键概念解析

本文介绍了理解大型语言模型(LLMs)的十个关键术语,如变换器架构、自注意力机制、预训练和微调等。这些概念有助于理解LLMs的语言处理和输出生成,以及其在特定领域的应用,掌握这些术语有助于跟上AI发展的步伐。

10个大型语言模型关键概念解析

KDnuggets
KDnuggets · 2025-06-16T14:00:55Z

本研究提出了一种SUS反向传播算法,旨在提高变换器架构中长序列的计算效率。通过控制参数$c$,该算法切断大部分注意力权重的反向传播,将复杂度从$O(n^2)$降低到$O(nc)$,显著提升训练效率。

SUS Backpropagation: A Linear Backpropagation Algorithm for Long Inputs in Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z
注意力可能是我们所需的一切……但为什么?

本文探讨了变换器架构中的注意力机制,强调其在生成式AI模型中的关键作用。与传统递归神经网络不同,注意力机制能够同时处理文本序列中的所有标记,捕捉长距离依赖关系,从而提升语言理解能力。多头注意力机制进一步增强了模型的表现,使其能够学习不同的语言和语义特征。

注意力可能是我们所需的一切……但为什么?

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-08T13:58:35Z
人工智能使静态照片生动化,展现自然面部动画的开创性研究

SkyReels-A1是一种新的视频扩散模型,能够将静态肖像照片转化为自然的面部动画。该模型采用变换器架构和运动控制技术,生成高质量且保留身份特征的动态视频。

人工智能使静态照片生动化,展现自然面部动画的开创性研究

DEV Community
DEV Community · 2025-02-20T07:11:19Z

本研究提出了一种摊销贝叶斯后验估计方法,解决了新观察数据出现时需重新计算的问题。研究表明,逆KL估计器在预测中表现优越,尤其与变换器架构和归一化流结合时。

摊销上下文贝叶斯后验估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究提出Mamba-Shedder方法,解决了变换器架构在序列建模中的效率问题。通过去除SSR模型的选定组件,实现了模型压缩和计算开销减少,推理速度提升最高达1.4倍,且对模型性能影响最小。

Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-28T00:00:00Z

本研究提出了一种新的语义分层嵌入扩散机制,以改善变换器架构中的层次语义表示。通过谱分析的多层扩散过程,实现了全球与地方语义的一致性,显著提高了语言模型在多语言和多领域文本生成中的准确性和适应性。

大型语言模型中的语义分层嵌入扩散实现多上下文一致性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-26T00:00:00Z
现代BERT

ModernBERT是一种新型双向编码器,具有更快的速度和更高的内存效率,支持长达8k tokens的上下文。在GLUE基准测试中,ModernBERT超越了DeBERTaV3,内存使用量仅为其五分之一,速度是其两倍。通过改进的变换器架构和高效的注意力机制,ModernBERT在处理长短文本时表现优异,显著提升了计算效率。

现代BERT

Measure Zero
Measure Zero · 2024-12-24T00:00:00Z

本研究提出了SAFERec模型,旨在改善下一购物篮推荐(NBR)任务的效果。该模型通过融入物品频率信息,克服了传统变换器架构在处理重复互动和多样化产品组合时的局限性。实验结果显示,SAFERec在Recall@10指标上提升了8%。

SAFERec: Self-Attention and Frequency-Enriched Model for Next Basket Recommendation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z
生成式AI:个人深度探索 - 我的笔记与见解

作为全栈开发者,我深入研究生成式AI,探索其潜力与挑战,并记录学习过程,分享变换器架构、提示工程和检索增强生成(RAG)的见解,提供丰富资源以帮助他人理解和应用这些概念。

生成式AI:个人深度探索 - 我的笔记与见解

DEV Community
DEV Community · 2024-12-15T10:17:27Z

本研究探讨了词义消歧(WSD)在实际文本中的应用难题,提出了词义链接(WSL)任务,并采用基于变换器的架构以提升消歧义效果,研究表明该方法有助于更好地整合词汇语义于下游应用。

Word Sense Linking: Disambiguating Outside the Sandbox

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z
Geoff Hinton、Yan Lacun和Jeff Dean的学生解读人工智能的未来走向

本文讨论了Clarifai创始人Matt Zeiler与Ben和Ryan的对话,涵盖了变换器架构取代卷积神经网络、AI实施所需基础设施、AI监管的影响以及合成数据的价值。Clarifai是一个帮助开发者将AI集成到技术工作流程和客户体验中的平台。

Geoff Hinton、Yan Lacun和Jeff Dean的学生解读人工智能的未来走向

Stack Overflow Blog
Stack Overflow Blog · 2024-11-12T08:40:00Z
多功能文本到图像的人工智能实现多样化的生成和编辑能力

Kandinsky 3是一种多功能的文本到图像合成模型,基于变换器架构,具备共享编码器,能够高效处理文本和视觉输入,适用于图像生成和编辑等多种任务,提升了合成的灵活性和能力。

多功能文本到图像的人工智能实现多样化的生成和编辑能力

DEV Community
DEV Community · 2024-11-01T09:45:54Z
探索ChatGPT-01-preview的架构:机器学习和深度学习技术如何构建推理AI模型

ChatGPT-01-preview结合了机器学习和深度学习技术,采用变换器架构和自注意力机制进行预训练和微调,生成上下文相关的自然语言响应。通过人类反馈强化学习,模型不断优化,具备处理复杂问题和管理对话上下文的能力,展现出强大的推理能力和适应性。

探索ChatGPT-01-preview的架构:机器学习和深度学习技术如何构建推理AI模型

DEV Community
DEV Community · 2024-10-26T15:55:07Z

本研究提出了Cliqueformer,一种通过学习黑箱函数结构来提升材料和蛋白质设计优化性能的变换器架构。它利用功能图模型有效识别结构,克服分布变化,在多个任务中表现出优异性能。

Cliquformer:基于模型的结构化变换器优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本研究提出了一种结合蒙特卡罗树搜索和变换器架构的语法强化学习算法,有效解决图中路径和环的计数问题。新算法发现了新的矩阵计数公式,计算效率提高2到6倍,对网络分析有重要影响。

基于深度强化学习的图路径和环计数公式研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本研究提出了一种基于变换器架构的新框架,用于解决少样本语义分割中的局部语义特征丢失和计算复杂度高的问题。通过空间变换解码器和上下文掩码生成模块增强图像与查询图像之间的关系理解,并通过多尺度解码器优化分割掩码。实验证明该方法在PASCAL-5^i和COCO-20^i基准数据集上具有卓越的性能和效率平衡。

MSDNet:基于变换器引导原型的少样本语义分割多尺度解码器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码