小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从零开始构建神经机器翻译 – PyTorch重现7篇重要论文

该课程在freeCodeCamp.org YouTube频道上详细讲解了神经机器翻译的发展历程,包括RNN、LSTM和Seq2Seq模型的历史突破及其数学原理,并通过PyTorch实验帮助学习者逐步重建这些重要论文。

从零开始构建神经机器翻译 – PyTorch重现7篇重要论文

freeCodeCamp.org
freeCodeCamp.org · 2025-12-10T15:23:41Z
小猫都能懂的大模型原理 3 - 自注意力机制

本文介绍了大语言模型的自注意力机制,强调其通过并行计算Token间相似度,克服传统RNN模型的局限性。自注意力机制利用Query、Key和Value向量计算注意力权重,动态调整对其他词的关注,生成上下文向量。

小猫都能懂的大模型原理 3 - 自注意力机制

UsubeniFantasy
UsubeniFantasy · 2025-12-02T10:12:47Z

大模型架构正处于“后Transformer时代”的创新竞赛,重点在于Transformer的改进和非Transformer的探索。Attention机制和FFN层的优化是研究热点,而新型RNN架构逐渐成为主流。行业对架构创新的看法分为两派,未来主流架构需突破10B、20B和100B规模。

谁是大模型架构新王者? |量子位智库

量子位
量子位 · 2025-06-19T08:24:04Z
递归神经网络(RNN):全面指南

递归神经网络(RNN)是一种处理序列数据的神经网络,具备“记忆”功能,广泛应用于自然语言处理、机器翻译和情感分析等领域。长短期记忆(LSTM)网络解决了基本RNN的梯度消失问题,增强了对长距离依赖的捕捉能力。尽管RNN存在训练困难和计算开销大的缺点,但其在深度学习中的重要性持续上升。

递归神经网络(RNN):全面指南

DEV Community
DEV Community · 2025-05-05T09:49:49Z

本研究比较了深度学习与集成学习在交通预测中的应用,解决了短期预测模型的长期预测挑战。结果表明,时间嵌入显著提升了RNN的性能,而XGBoost在仅利用时间特征时也表现出色,为未来的长期交通预测研究提供了重要见解。

A Comparative Study of Deep Learning and Ensemble Learning in Traffic Forecasting

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z
学习如何使用RNN和LSTM构建多类文本分类模型

多类文本分类是自然语言处理中的关键任务,RNN和LSTM模型用于处理文本序列。RNN适合顺序数据,但对长文本效果不佳;LSTM通过增强记忆能力解决此问题。构建分类器需收集标记数据、预处理文本、建立并训练模型。该技术广泛应用于情感分析和邮件分类等领域,提高了文本处理的准确性和效率。

学习如何使用RNN和LSTM构建多类文本分类模型

DEV Community
DEV Community · 2025-04-28T08:14:10Z

本研究分析了脉冲神经网络在序列建模中的记忆机制不足,提出了固定不应期脉冲神经网络架构,为生成稀疏脉冲模式提供了新的理论解释,对序列建模具有重要影响。

Revisiting Reset Mechanisms in Spiking Neural Networks for Sequential Modeling: Specialized Discretization for Binary Activated RNN

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-24T00:00:00Z
破解深度学习的密码:开发者和梦想者必读

深度学习是现代人工智能的核心,利用多层神经网络自动提取数据特征。主要架构包括卷积神经网络(CNN)、递归神经网络(RNN)和变换器模型。训练深度网络时需关注权重初始化、学习率和数据增强等因素。未来,深度学习将向可解释性和效率方向发展。

破解深度学习的密码:开发者和梦想者必读

DEV Community
DEV Community · 2025-04-18T11:17:46Z
破解深度学习的密码:开发者和梦想者必读

深度学习是现代人工智能的核心,利用多层神经网络自动学习复杂数据特征。主要架构包括卷积神经网络(CNN)、递归神经网络(RNN)和变换器模型。训练时需关注权重初始化、学习率和数据增强等因素。未来,深度学习将向可解释性和高效性发展。

破解深度学习的密码:开发者和梦想者必读

DEV Community
DEV Community · 2025-04-18T11:17:46Z

本研究提出平铺闪存线性注意力(TFLA)算法,旨在解决线性 RNN 在长序列建模中的计算效率和内存消耗问题。TFLA 通过序列并行化显著提升内核性能,实验结果表明其速度优于优化的闪存注意力,为高效长上下文序列建模设立了新标准。

Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出SeqSAM方法,解决医学图像分割中仅生成单一预测的问题。该方法通过序列化和RNN启发策略,利用二部匹配损失确保分割掩模的临床相关性,并能生成多个掩模。研究表明,该方法在公开数据集上显著提高了分割质量。

SeqSAM: Autoregressive Multiple Hypothesis Prediction for Medical Image Segmentation Based on SAM

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-12T00:00:00Z

本研究提出了一种新型模型基础的强化学习算法,显著提高了样本效率。在Craftax-classic基准测试中获得67.4%的奖励,超越了DreamerV3和人类表现。该方法结合了CNN和RNN,并通过多项改进提升了模型性能。

Enhancing Transformer World Models for Data-Efficient Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究评估了注意力图在决策解释中的有效性,分析了eSNLI语料库中RNN编码器的交叉注意力权重,发现原始注意力权重与可行解释的相关性较弱。

自然语言推理中RNN编码器之间注意力可行性研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究解决了低资源语言建模场景中对传统变换器模型的替代方案的需求。通过使用新提出的RNN架构HGRN2,实验结果表明,BABYHGRN在BLiMP、EWoK、GLUE和BEAR基准测试中超越了变换器模型,特别是在资源受限环境中,展示了RNN模型的可行性和潜在影响。

BabyHGRN:探索使用RNN进行语言模型的样本高效训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-20T00:00:00Z

本研究提出了一种新方法SEKE,结合RNN与DeBERTa模型,基于专家混合技术,提升小规模语料的关键词提取能力。实验结果在多个英文数据集上表现优异。

SEKE:关键词提取的专门专家

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z
卷积神经网络(CNN)与递归神经网络(RNN)

卷积神经网络(CNN)主要用于计算机视觉任务,通过卷积层提取特征;递归神经网络(RNN)则用于自然语言处理,保持内部状态处理数据序列。两者广泛应用于图像识别、机器翻译和情感分析等领域。

卷积神经网络(CNN)与递归神经网络(RNN)

DEV Community
DEV Community · 2024-12-16T13:06:22Z
第8部分:构建自己的人工智能 - 用于序列数据的递归神经网络(RNN)

递归神经网络(RNN)用于处理序列数据,具备记忆能力。其变体LSTM和GRU解决了基本RNN的梯度消失和爆炸问题,广泛应用于语言建模、情感分析和时间序列预测等领域。

第8部分:构建自己的人工智能 - 用于序列数据的递归神经网络(RNN)

DEV Community
DEV Community · 2024-12-13T05:29:55Z

本研究关注商业建筑短期能耗预测中的数据异质性问题,该问题影响智能电网的运营。通过使用具有合成能耗数据的ComStock数据集,我们评估了不同时间序列预测模型在数据集异质性上的表现,发现模型架构与数据集异质性对预测性能的影响大于模型参数数量。同时,经过微调的基础模型在性能上与从头训练的基础模型相当,尽管计算成本更高。

从RNN到基础模型:关于商业建筑能耗的实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本文探讨了输入数据独立性假设的局限性,提出了一种改进的解多项网络(RPN 2),通过引入数据和结构的依赖函数,显式建模数据间的相互依赖,从而提升学习性能和兼容性,为新架构设计提供了可能性。

RPN 2:关于依赖函数学习以统一和推进 CNN、RNN、GNN 和 Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-17T00:00:00Z

本研究探讨了神经网络在形式语言理论中的应用,强调机器作为字符串的二元分类器进行训练。结果显示,RNN和LSTM的性能优于变压器,并发布了FLaRe数据集作为基准。

将神经网络训练为形式语言的识别器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码