本研究提出了一种新型合成认知方法,旨在提升变压器架构的推理能力。该方法在DNA序列分类任务中表现优于传统模型,显示出其在序列任务中的潜力与优势。
本研究提出了一种基于变压器架构的多频带脑网(MBBN),克服了传统神经成像模型在描述复杂脑动态方面的局限性。MBBN能够揭示频率依赖的网络互动,预测准确率提高30.59%,并为神经发育障碍提供新的生物标志物。
本文探讨了变压器架构中的sigmoid注意力机制,证明其为通用函数逼近器,并在训练初期的稳定性上优于softmax注意力。提出的FLASHSIGMOID实现提升了17%的推理速度。实验结果表明,sigmoid注意力在多个领域的表现与softmax相当,提供了最佳实践。
本研究探讨了变压器架构在语言模型中的安全性缺陷,指出“代币民主”特性导致安全指令与对抗性输入之间的竞争,限制了有效对齐。现有对齐方法无法提供真正约束,使得经过安全训练的模型仍然容易受到攻击。
本研究提出了一种新型变压器架构MemoryFormer,通过使用内存查找表替代全连接层的线性投影,降低了大型语言模型的计算复杂度,优化了多头注意力操作,实现了效率与性能的新平衡。
本文提出了多种基于注意力机制的时间序列预测模型,如Grouped Self-Attention、MTS-Mixers和Periodformer,这些模型显著提高了预测准确性并降低了计算复杂度。研究表明,结合局部注意机制的变压器架构在长序列预测中表现优异,推动了多变量时间序列预测的发展。
TrackFormer是一种基于变压器架构的多目标追踪方法,利用注意力机制实现数据关联,表现优异。研究中提出了多种基于变压器的跟踪模型,如MTTR、RMOT和MUTR,结合视频和文本数据,提升了目标跟踪的准确性和性能。此外,MeMOTR和MMHT等新模型在多模态跟踪中展现了竞争力,解决了传统方法的不足,具有广泛应用前景。
研究发现,大型语言模型(LLMs)可以同时执行多项任务,这被称为“任务叠加”。实验显示,LLMs在一次推理中能处理多个任务,即使只接受过单一任务训练。这是因为变压器架构的表达能力。更大规模的模型在并行处理和输出校准上表现更佳。这一现象揭示了LLMs的潜力,并引发了对其机制的进一步研究。
本文介绍了一种高效的变压器架构,通过增强位置嵌入,在减少层数的情况下提升性能。结合位置编码与可训练标记嵌入,并对其归一化,显著改善了训练和验证的损失及时间。
本文介绍了一种基于变压器架构的SdCT-GAN模型,通过双平面X射线重建CT图像,结合自动编码器和边缘信息,提升了图像细节保留。研究比较了深度学习模型在2D-3D骨形重建中的表现,发现基于注意力的方法更优。新方法结合扩散模型和非线性物理模型,有效解决了CT图像重建中的挑战,展现出良好的性能和应用潜力。
本文综述了大型语言模型(LLMs)的发展及其在人工智能中的应用,探讨了基于变压器架构的模型如何展现类人智能。研究分析了自然语言生成的评估挑战和不同模型的性能,并讨论了GPT-4的能力与局限性,强调其在多个领域的潜力及对社会的影响。
本文介绍了一种基于变压器架构的交叉注意机制,用于从LiDAR数据中选择高光谱图像波段。该方法通过直接训练网络,提高了分类准确性,减少了冗余和计算需求。此外,研究提出了多分支高维规范胶囊算法和互连融合框架,进一步提升了多源遥感数据的特征提取和分类性能。
华为云社区分享了OpenAI最新发布的文本生成视频模型Sora,它可以生成长达一分钟的高质量视频。Sora采用变压器架构,能够处理不同分辨率和宽高比的视频和图像。Sora的技术思路独特,注重语义理解的变化,展示了技术的无限可能性。开发者用户可以在华为云上体验Stable Video Diffusion (SVD)扩散模型,生成视频并转成动图。
生成式机器学习方法如大型语言模型正在革新文本和图像的创作。本研究通过容错性量子计算的视角来调查变压器架构。我们展示了如何使用Hadamard乘积对自注意矩阵的行逐行应用softmax函数来准备区块编码。我们结合了量子子程序来构建变压器中的重要构件,包括残余连接、层归一化和前馈神经网络。我们的子程序准备了变压器输出的振幅编码,可以进行测量以获得预测结果。我们讨论了获取量子优势的潜力和挑战。
OpenAI的视频生成模型Sora能够生成高保真度、各异的视频,使用视觉补丁作为表示形式,并通过变压器架构进行操作。它能够根据文本提示生成视频,接受现有图像或视频作为输入,并具有一些有趣的模拟能力。扩大视频模型的规模是构建物理世界通用模拟器的有前景的路径。
本文讨论了三篇论文的重点内容:减少幻觉、增强小型模型的推理能力和简化变压器架构。这些研究对于改进大型语言模型的性能和效率具有重要意义。
该研究使用变压器架构训练了波斯古典诗生成模型,并提出了一种新的解码方法来提高诗歌的连贯性和意义。通过全面评估证明了该方法在生成连贯和富有意义的诗歌方面的优越性。
该文章介绍了一种基于射影几何代数的几何代数变换器(GATr),可用于构建可扩展的变压器架构。研究了欧几里德、射影和共形代数的不同版本的该架构,并在理论和实践中对它们进行评估。
完成下面两步后,将自动完成登录并继续当前操作。