小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新型合成认知方法,旨在提升变压器架构的推理能力。该方法在DNA序列分类任务中表现优于传统模型,显示出其在序列任务中的潜力与优势。

Surpassing Transformer Technology with Synthetic Cognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出了一种基于变压器架构的多频带脑网(MBBN),克服了传统神经成像模型在描述复杂脑动态方面的局限性。MBBN能够揭示频率依赖的网络互动,预测准确率提高30.59%,并为神经发育障碍提供新的生物标志物。

Spatiotemporal Learning of Brain Dynamics from fMRI Using Frequency-Specific Multi-Band Attention for Cognitive and Psychiatric Applications

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-30T00:00:00Z
Sigmoid自注意力的理论、分析与最佳实践

本文探讨了变压器架构中的sigmoid注意力机制,证明其为通用函数逼近器,并在训练初期的稳定性上优于softmax注意力。提出的FLASHSIGMOID实现提升了17%的推理速度。实验结果表明,sigmoid注意力在多个领域的表现与softmax相当,提供了最佳实践。

Sigmoid自注意力的理论、分析与最佳实践

Apple Machine Learning Research
Apple Machine Learning Research · 2025-02-10T00:00:00Z

本研究提出了一种新型变压器架构MemoryFormer,通过使用内存查找表替代全连接层的线性投影,降低了大型语言模型的计算复杂度,优化了多头注意力操作,实现了效率与性能的新平衡。

MemoryFormer:通过移除全连接层来最小化变压器计算

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

研究发现,大型语言模型(LLMs)可以同时执行多项任务,这被称为“任务叠加”。实验显示,LLMs在一次推理中能处理多个任务,即使只接受过单一任务训练。这是因为变压器架构的表达能力。更大规模的模型在并行处理和输出校准上表现更佳。这一现象揭示了LLMs的潜力,并引发了对其机制的进一步研究。

大型语言模型通过卓越的“任务叠加”能力实现并行上下文学习

DEV Community
DEV Community · 2024-10-11T10:07:46Z

本文介绍了一种高效的变压器架构,通过增强位置嵌入,在减少层数的情况下提升性能。结合位置编码与可训练标记嵌入,并对其归一化,显著改善了训练和验证的损失及时间。

用于语言模型的高效变压器加强位置嵌入

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本研究提出了一种新的异质预训练变压器架构(HPT),用于解决机器人模型训练中的异质性问题。通过在不同机器人数据和任务上预训练,该方法有效对齐不同机器人姿态的输入,显著提高多个任务的策略表现,尤其在未见任务上效率提升超过20%。

利用异质预训练变换器扩展自我感知与视觉学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

生成式机器学习方法如大型语言模型正在革新文本和图像的创作。本研究通过容错性量子计算的视角来调查变压器架构。我们使用预训练的权重矩阵构建变压器的查询、关键和值矩阵,并展示了如何使用 Hadamard 乘积对自注意矩阵的行逐行应用 softmax 函数来准备区块编码。我们还结合了量子子程序来构建变压器中的重要构件,包括残余连接、层归一化和前馈神经网络。我们的子程序准备了变压器输出的振幅编码,可以进行测量以获得预测结果。我们讨论了获取量子优势的潜力和挑战。

Transformer 技巧:去除跳过机制的权重

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z

华为云社区分享了OpenAI最新发布的文本生成视频模型Sora,它可以生成长达一分钟的高质量视频。Sora采用变压器架构,能够处理不同分辨率和宽高比的视频和图像。Sora的技术思路独特,注重语义理解的变化,展示了技术的无限可能性。开发者用户可以在华为云上体验Stable Video Diffusion (SVD)扩散模型,生成视频并转成动图。

一键Run带你体验扩散模型的魅力

华为云官方博客
华为云官方博客 · 2024-03-08T07:24:34Z

生成式机器学习方法如大型语言模型正在革新文本和图像的创作。本研究通过容错性量子计算的视角来调查变压器架构。我们展示了如何使用Hadamard乘积对自注意矩阵的行逐行应用softmax函数来准备区块编码。我们结合了量子子程序来构建变压器中的重要构件,包括残余连接、层归一化和前馈神经网络。我们的子程序准备了变压器输出的振幅编码,可以进行测量以获得预测结果。我们讨论了获取量子优势的潜力和挑战。

Transformer 架构所需的量子线性代数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-26T00:00:00Z
Sora技术报告 视频生成模型作为世界模拟器 笔记

OpenAI的视频生成模型Sora能够生成高保真度、各异的视频,使用视觉补丁作为表示形式,并通过变压器架构进行操作。它能够根据文本提示生成视频,接受现有图像或视频作为输入,并具有一些有趣的模拟能力。扩大视频模型的规模是构建物理世界通用模拟器的有前景的路径。

Sora技术报告 视频生成模型作为世界模拟器 笔记

plus studio
plus studio · 2024-02-16T17:55:00Z

本文讨论了三篇论文的重点内容:减少幻觉、增强小型模型的推理能力和简化变压器架构。这些研究对于改进大型语言模型的性能和效率具有重要意义。

本月三篇大模型论文简介

极道
极道 · 2023-12-11T03:29:00Z

该研究使用变压器架构训练了波斯古典诗生成模型,并提出了一种新的解码方法来提高诗歌的连贯性和意义。通过全面评估证明了该方法在生成连贯和富有意义的诗歌方面的优越性。

TPPoet:使用最小数据和高级解码技术的基于 Transformer 的波斯诗歌生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-04T00:00:00Z

该文章介绍了一种基于射影几何代数的几何代数变换器(GATr),可用于构建可扩展的变压器架构。研究了欧几里德、射影和共形代数的不同版本的该架构,并在理论和实践中对它们进行评估。

选择欧几里德、射影、共形几何代数用于等变变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-08T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码