小红花·文摘

本研究提出了一种新型合成认知方法，旨在提升变压器架构的推理能力。该方法在DNA序列分类任务中表现优于传统模型，显示出其在序列任务中的潜力与优势。

Surpassing Transformer Technology with Synthetic Cognition

BriefGPT - AI 论文速递 ·

本研究提出了一种基于变压器架构的多频带脑网（MBBN），克服了传统神经成像模型在描述复杂脑动态方面的局限性。MBBN能够揭示频率依赖的网络互动，预测准确率提高30.59%，并为神经发育障碍提供新的生物标志物。

Spatiotemporal Learning of Brain Dynamics from fMRI Using Frequency-Specific Multi-Band Attention for Cognitive and Psychiatric Applications

BriefGPT - AI 论文速递 ·

Sigmoid自注意力的理论、分析与最佳实践

Apple Machine Learning Research ·

本研究探讨了变压器架构在语言模型中的安全性缺陷，指出“代币民主”特性导致安全指令与对抗性输入之间的竞争，限制了有效对齐。现有对齐方法无法提供真正约束，使得经过安全训练的模型仍然容易受到攻击。

Token Democracy: The Architectural Limits of Alignment in Transformer-Based Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新型变压器架构MemoryFormer，通过使用内存查找表替代全连接层的线性投影，降低了大型语言模型的计算复杂度，优化了多头注意力操作，实现了效率与性能的新平衡。

MemoryFormer: Minimizing Transformer Computation by Removing Fully Connected Layers

BriefGPT - AI 论文速递 ·

本文提出了多种基于注意力机制的时间序列预测模型，如Grouped Self-Attention、MTS-Mixers和Periodformer，这些模型显著提高了预测准确性并降低了计算复杂度。研究表明，结合局部注意机制的变压器架构在长序列预测中表现优异，推动了多变量时间序列预测的发展。

引入谱注意力机制以解决时间序列预测中的长距离依赖问题

BriefGPT - AI 论文速递 ·

TrackFormer是一种基于变压器架构的多目标追踪方法，利用注意力机制实现数据关联，表现优异。研究中提出了多种基于变压器的跟踪模型，如MTTR、RMOT和MUTR，结合视频和文本数据，提升了目标跟踪的准确性和性能。此外，MeMOTR和MMHT等新模型在多模态跟踪中展现了竞争力，解决了传统方法的不足，具有广泛应用前景。

时间增强的多模态变换器用于参照多对象跟踪与分割

BriefGPT - AI 论文速递 ·

研究发现，大型语言模型（LLMs）可以同时执行多项任务，这被称为“任务叠加”。实验显示，LLMs在一次推理中能处理多个任务，即使只接受过单一任务训练。这是因为变压器架构的表达能力。更大规模的模型在并行处理和输出校准上表现更佳。这一现象揭示了LLMs的潜力，并引发了对其机制的进一步研究。

大型语言模型通过卓越的“任务叠加”能力实现并行上下文学习

DEV Community ·

本文介绍了一种高效的变压器架构，通过增强位置嵌入，在减少层数的情况下提升性能。结合位置编码与可训练标记嵌入，并对其归一化，显著改善了训练和验证的损失及时间。

用于语言模型的高效变压器加强位置嵌入

BriefGPT - AI 论文速递 ·

本文介绍了一种基于变压器架构的SdCT-GAN模型，通过双平面X射线重建CT图像，结合自动编码器和边缘信息，提升了图像细节保留。研究比较了深度学习模型在2D-3D骨形重建中的表现，发现基于注意力的方法更优。新方法结合扩散模型和非线性物理模型，有效解决了CT图像重建中的挑战，展现出良好的性能和应用潜力。

Diff2CT：基于扩散学习从双面X光重建脊柱CT

BriefGPT - AI 论文速递 ·

本文综述了大型语言模型（LLMs）的发展及其在人工智能中的应用，探讨了基于变压器架构的模型如何展现类人智能。研究分析了自然语言生成的评估挑战和不同模型的性能，并讨论了GPT-4的能力与局限性，强调其在多个领域的潜力及对社会的影响。

超越生成人工智能：自然语言生成的路线图

BriefGPT - AI 论文速递 ·

本文介绍了一种基于变压器架构的交叉注意机制，用于从LiDAR数据中选择高光谱图像波段。该方法通过直接训练网络，提高了分类准确性，减少了冗余和计算需求。此外，研究提出了多分支高维规范胶囊算法和互连融合框架，进一步提升了多源遥感数据的特征提取和分类性能。

融合高光谱与激光雷达注意力的无监督波段选择与自编码器整合

BriefGPT - AI 论文速递 ·

华为云社区分享了OpenAI最新发布的文本生成视频模型Sora，它可以生成长达一分钟的高质量视频。Sora采用变压器架构，能够处理不同分辨率和宽高比的视频和图像。Sora的技术思路独特，注重语义理解的变化，展示了技术的无限可能性。开发者用户可以在华为云上体验Stable Video Diffusion (SVD)扩散模型，生成视频并转成动图。

一键Run带你体验扩散模型的魅力

华为云官方博客 ·

生成式机器学习方法如大型语言模型正在革新文本和图像的创作。本研究通过容错性量子计算的视角来调查变压器架构。我们展示了如何使用Hadamard乘积对自注意矩阵的行逐行应用softmax函数来准备区块编码。我们结合了量子子程序来构建变压器中的重要构件，包括残余连接、层归一化和前馈神经网络。我们的子程序准备了变压器输出的振幅编码，可以进行测量以获得预测结果。我们讨论了获取量子优势的潜力和挑战。