小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一种提升大型语言模型能力的新方法

大多数语言依赖词序和句法来提取意义,但现有注意机制在状态变化和顺序推理方面存在局限。MIT研究团队提出的“PaTH Attention”技术增强了位置信息的适应性,提升了模型在推理和长文本理解上的表现。

一种提升大型语言模型能力的新方法

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-12-18T04:10:00Z
学习大型语言模型中变压器架构的演变

变压器在机器学习中至关重要,推动了聊天机器人、搜索引擎和机器翻译的发展。freeCodeCamp.org推出了一门新课程,帮助初学者理解变压器架构的改进,内容涵盖位置编码、注意机制、归一化和激活函数等关键概念,适合学生和工程师,观看时间为3小时。

学习大型语言模型中变压器架构的演变

freeCodeCamp.org
freeCodeCamp.org · 2025-06-26T13:09:08Z

本文探讨了传统矩形图像补丁注意机制在复杂视觉任务中的局限性,提出了一种基于图像分割的原型对象方法。该方法通过使用原型对象,显著降低了表示复杂性,并在参数更少、训练时间更短的情况下,实现了与最新补丁方法相当或更好的性能。

Neuroevolution of Self-Attention Over Proto-Objects

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z
从零开始编写自己的Llama 4大型语言模型

大型语言模型(LLMs)是现代人工智能的前沿,Meta最新发布的Llama 4在架构和功能上有显著进展。freeCodeCamp.org的课程将教你如何从零开始实现Llama 4,内容涵盖模型架构、令牌、注意机制和旋转位置嵌入,适合机器学习爱好者和开发者。

从零开始编写自己的Llama 4大型语言模型

freeCodeCamp.org
freeCodeCamp.org · 2025-04-24T19:57:28Z

本研究提出了一种优化基础模型架构的方法,将神经网络重新概念化为关联记忆模块,并引入新的注意偏差和遗忘机制。实验结果表明,基于新框架Miras设计的序列模型在语言建模和常识推理任务中表现优异,超越了现有的线性循环神经网络和变换器。

Everything is Interconnected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

该研究提出了一种新方法,结合模型压缩技术与抑制注意机制,以解决变换器语言模型的计算和能效问题。调整后的模型在自然语言处理基准测试中表现出竞争力,显示出提升效率的潜力。

InhibiDistilbert:基于ReLU和加法的变换器的知识蒸馏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z
解锁长上下文潜力:大型语言模型的推测解码进展

在人工智能快速发展的背景下,长上下文处理对大型语言模型(LLMs)提出了挑战。研究者们通过“推测解码”技术优化注意机制,提升了模型在长上下文中的表现,增强了效率并减少了延迟,使LLMs在复杂对话和文本生成中更实用。

解锁长上下文潜力:大型语言模型的推测解码进展

DEV Community
DEV Community · 2025-02-25T08:13:05Z

本研究探讨了注意机制与人类记忆检索的关系,分析了基于句法结构的Transformer语法(TG)的作用。实验结果表明,TG的注意机制在预测阅读时间方面优于传统Transformer,强调了句法结构在记忆表示中的重要性。

If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is a Plausible Memory Representation?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
人工智能增强的心率监测有效消除运动噪声

这项研究旨在提高运动中心率监测的准确性,采用人工智能处理PPG信号,结合U-Net架构和注意机制,以减少运动伪影。

人工智能增强的心率监测有效消除运动噪声

DEV Community
DEV Community · 2025-02-16T06:49:31Z

本研究提出了一种轻量级的基于区间的命名实体识别方法SeNER,采用双向箭头注意机制和LogN缩放技术来有效处理长文本,并引入双向滑动窗口和形态注意机制,显著减少冗余候选区间。该方法在三个长NER数据集上表现优异。

小型语言模型有效地提取长文本

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
ChatGPT是如何生成类人文本的?

ChatGPT通过变换器模型生成类人文本和代码,经过预训练和微调,学习语言模式并优化响应。模型利用注意机制和大规模训练生成连贯回答,但缺乏真正理解。

ChatGPT是如何生成类人文本的?

DEV Community
DEV Community · 2025-01-04T12:09:54Z
变压器如何通过注意机制革新人工智能

变压器是现代人工智能的核心,推动了GPT、BERT等模型的发展。其注意机制提高了数据处理效率,优于传统模型。文章讨论了注意机制的重要性、变压器在自然语言处理中的优势及实际应用。

变压器如何通过注意机制革新人工智能

DEV Community
DEV Community · 2024-11-20T23:16:05Z

本文介绍了多种基于隐式图像函数的超分辨率方法,如TTSR、UltraSR和IPE-LIIF,强调了注意机制和频率编码在图像纹理恢复中的重要性。这些新方法在图像重建性能和计算效率上均有显著提升。

局部隐式小波变换器用于任意尺度超分辨率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z

本文探讨了transformers中的注意机制在视觉和语言任务中的应用,提出了稀疏注意力、混合专家架构和离散多模态语言模型等方法,以提高模型的可解释性和计算效率,推动多模态大型语言模型的发展。

混合变换器:一种稀疏且可扩展的多模态基础模型架构

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本研究提出了一种基于注意机制的运动扩散模型MotionCLR,解决了现有模型在字级文本与运动对应关系上的不足,实验结果表明该方法具有良好的生成、编辑能力和可解释性。

MotionCLR:通过理解注意机制实现运动生成和无训练编辑

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本文探讨了基于深度学习的医学图像分割中的不确定性评估方法,提出了两阶段架构以生成不确定性测量,旨在提高分割质量和可靠性。研究表明,个体化评估方法和辅助网络有效,结合贝叶斯神经网络与注意机制的模型在准确性和可解释性上表现优异,增强了医疗图像识别的可靠性。

生物医学分割中证据深度学习模型的误差与不确定性关联

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本文探讨了文本生成中的一致性、多样性和创造性问题,提出了结合预训练语言模型和强化学习的新方法。研究表明,混合红狐人工蜂鸟算法和改进注意机制能提升文本生成质量。文献回顾分析了文本生成的任务、评估和挑战,指出九个主要挑战并提供解决方案。最新研究强调可控文本生成技术在提升安全性和风格丰富性方面的重要性。

通过课程学习、半监督训练和先进优化技术提升联合NLG/NLU学习中的文本生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文介绍了一种新颖的时间序列预测方法,结合了Decoder-Encoder Attention和位置编码,以提高预测准确性。研究提出了Reconditionor和SOLID校准框架,增强了Transformer模型在处理上下文驱动分布变化时的性能。此外,BasisFormer和MetaTST模型通过自适应学习和元数据整合显著提升了预测效果。Timer-XL模型则通过通用时间注意机制解决了1D和2D时间序列预测的挑战。

上下文重要性:利用上下文特征进行时间序列预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本研究为解决四足机器人游泳能力不足的问题,提出结合神经常微分方程和注意机制的数据驱动模型。结果表明,该模型能适应不同水动力条件,提高机器人在复杂水下环境中的自主决策和表现。

在复杂条件下使用神经常微分方程学习自适应水动力学模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z

本研究将注意机制嵌入到远程感知问答中的分割过程中,探讨了分割在引导注意力方面的关键作用,并提供了一个新的VQA数据集来评价该方法的有效性。结果显示,该方法在该数据集上的准确率提高了近10%。

合成孔径雷达能否提升遥感视觉问答性能?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码