小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
ParaRNN:大规模非线性递归神经网络,可并行训练

苹果研究人员提出了ParaRNN框架,显著提高了非线性递归神经网络(RNN)的训练效率,实现了大规模并行训练。该方法使得7亿参数的RNN在语言建模任务中表现出与变换器相当的性能,且通过引入牛顿法,ParaRNN在保持非线性表达能力的同时实现了高效的并行计算。这一进展为RNN的广泛应用和进一步研究提供了新的可能性。

ParaRNN:大规模非线性递归神经网络,可并行训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-23T00:00:00Z

最近发布了用Rust编写的轻量级自动微分库ferris-grad。该库具有PyTorch风格的自动求导引擎,核心代码不到1000行,且无外部依赖。实现包括标量计算图、张量操作和神经网络层,支持训练多层感知机和mini GPT。项目灵感来源于Karpathy的micrograd和microgpt,欢迎参与贡献。

1000行Rust实现一个类似pytorch的轻量级自动微分库

Rust.cc
Rust.cc · 2026-04-19T14:10:58Z
DDPM笔记

DDPM(去噪扩散概率模型)通过逐步添加噪声生成图像,利用神经网络预测并去除噪声。模型依赖高斯分布,损失函数使用均方误差(MSE)衡量真实噪声与预测噪声的差异。训练过程中,模型优化以提升生成图像质量,最终通过积分将预测的高斯分布转化为清晰图像。

DDPM笔记

plus studio
plus studio · 2026-04-11T00:00:00Z
从递归神经网络到变换器

自然语言处理经历了巨大的演变,传统的序列到序列模型依赖递归神经网络(RNN),但在处理长序列时存在信息瓶颈。为了解决这一问题,引入了注意力机制,使解码器能够动态关注输入序列的不同部分。现代的Transformer模型通过堆叠注意力层,能够高效处理复杂的序列数据,广泛应用于文本生成和图像处理等领域。

从递归神经网络到变换器

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-07T22:30:09Z

递归神经网络(RNN)用于处理序列数据,具备内部状态(记忆),适应多种输入输出结构。RNN通过递归公式更新隐藏状态并生成输出。长短期记忆(LSTM)通过门控机制解决梯度消失问题,增强信息流动。

CS231n 讲义 VII:递归神经网络

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-07T13:30:09Z
【TVM教程】理解 Relax 抽象层

Apache TVM 更新至 0.21.0 版本,中文文档已同步。TVM 是一个深度学习编译框架,支持多种硬件。Relax 是其图抽象方式,用于优化机器学习模型。文章介绍了如何使用 Relax 表达神经网络模型的结构与数据流,并提供了高层与底层实现的代码示例,强调数据流块和无副作用函数的重要性,以便于编译器优化。

【TVM教程】理解 Relax 抽象层

HyperAI超神经
HyperAI超神经 · 2026-04-07T02:46:11Z

本文讨论了卷积神经网络(CNN)的架构和训练方法,包括归一化层、正则化(如Dropout)、激活函数(如ReLU和GELU)、残差网络(ResNet)和权重初始化(Kaiming初始化)。还介绍了数据预处理、数据增强、迁移学习策略及超参数优化步骤,强调系统调试的重要性,指出大多数失败源于基本设置问题,而非超参数选择。

CS231n 讲义 VI:卷积神经网络架构与训练

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-03T14:45:09Z
CS231n 讲义 V:卷积神经网络基础

卷积神经网络(CNN)通过提取图像特征,解决了传统神经网络在处理大图像时的过拟合和忽视空间结构的问题。CNN由卷积层、池化层和全连接层组成,逐步将原始像素转换为分类分数。卷积层使用可学习的滤波器进行线性操作,池化层通过下采样降低特征图的空间分辨率,同时保持特征的平移不变性。

CS231n 讲义 V:卷积神经网络基础

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-02T14:45:09Z
[实验性] 有开发者破解苹果ANE神经网络引擎 原来M4芯片也能直接训练小模型

开发者通过逆向工程破解了苹果的ANE神经网络引擎,使其能够在M4芯片上训练小型AI模型。尽管目前只能训练极小规模的模型,但未来个人设备可能实现自我学习,减少对云端的依赖。

[实验性] 有开发者破解苹果ANE神经网络引擎 原来M4芯片也能直接训练小模型

蓝点网
蓝点网 · 2026-03-04T00:30:28Z
苹果推出搭载M4芯片的新款iPad Air 采用16核神经网络引擎核12GB内存

苹果推出新款 iPad Air,搭载 M4 芯片,配备 12GB 内存和 16 核心神经网络引擎,提供 11 和 13 英寸版本。11 英寸 Wi-Fi 版起售价 599 美元,预售时间为 3 月 4 日,正式发售 3 月 11 日。

苹果推出搭载M4芯片的新款iPad Air 采用16核神经网络引擎核12GB内存

蓝点网
蓝点网 · 2026-03-02T15:13:10Z
解决简街的“掉落的神经网络”难题

简街2026年1月的难题“掉落的神经网络”要求将97个散落的神经网络组件重新组合,解决方案包括配对和排序。通过Gumbel-Sinkhorn框架实现可微分排列学习,最终均方误差降至0。配对修正能有效触发排序改进,插入操作优于交换。

解决简街的“掉落的神经网络”难题

Yi's blog
Yi's blog · 2026-02-16T20:00:00Z

本文介绍了神经网络及其反向传播算法。神经网络由输入层、输出层和多个隐藏层组成,使用激活函数(如ReLU)引入非线性。反向传播通过计算梯度优化网络参数,利用链式法则将误差从输出层传递到隐藏层。

CS231n 讲义 IV:神经网络与反向传播

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-02-13T20:45:09Z

本文介绍了神经网络的结构,包括输入层、输出层和多个隐藏层,并使用激活函数(如ReLU)引入非线性。反向传播通过计算梯度和链式法则,将误差从输出层向后传播以学习参数。

CS231n 讲义 IV:神经网络与反向传播

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-02-13T20:45:09Z
告别N卡CUDA垄断,Windows+AMD显卡ROCm跑深度学习:手把手实现 MNIST 手写数字识别 - 曦远Code

本文介绍了在Windows系统和AMD显卡上成功编译ROCm版本的PyTorch,并通过MNIST手写数字识别脚本验证其性能。文章讲解了神经网络的基本概念,比较了前馈神经网络(FNN)与卷积神经网络(CNN)的区别,强调了CNN在图像处理中的优势。最后,展示了如何安装PyTorch、定义模型、准备数据并进行训练,成功实现了在AMD GPU上的训练过程。

告别N卡CUDA垄断,Windows+AMD显卡ROCm跑深度学习:手把手实现 MNIST 手写数字识别 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-02-06T07:54:00Z
U-Net 解析:初学者的视觉指南

U-Net是一种用于医学图像分割的神经网络架构,通过编码器压缩图像并通过解码器恢复图像,同时利用跳跃连接保留空间细节,因而在像素级任务中表现优异。

U-Net 解析:初学者的视觉指南

Yi's blog
Yi's blog · 2026-02-03T18:00:00Z
提升你的机器学习技能:安德鲁·吴课程后的行动指南

在安德鲁·吴的机器学习课程后,提升技能的关键在于重建神经网络的思维模型,理解架构而非仅仅算法,处理真实复杂数据。学习调试和评估模型,掌握数据预处理和实验记录,理解语言模型的基本原理,选择具有挑战性的项目以增强能力。

提升你的机器学习技能:安德鲁·吴课程后的行动指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-26T17:09:50Z
加州大学构建基于全连接神经网络的片上光谱仪,在芯片级尺寸上实现8纳米的光谱分辨率

加州大学研究团队开发了一种新型光谱仪,结合光子捕获结构和神经网络,实现了芯片级的高光谱保真度,解决了微型化与高性能的矛盾,推动了智能光谱传感的实用化进程。

加州大学构建基于全连接神经网络的片上光谱仪,在芯片级尺寸上实现8纳米的光谱分辨率

HyperAI超神经
HyperAI超神经 · 2026-01-26T07:44:21Z

首先,将原始数据集插值至 640-1000nm 范围内、间隔 1nm 的 361 个波长点,进而与光电二极管的模拟光谱响应进行耦合,生成对应的光电流数据,最后输入训练好的神经网络模型以重建高光谱图像。届时,解读万物的「光指纹」,将不再是实验室的专属,而成为人们认识周遭环境的又一种本能。其革命性在于,将原本重达 15 公斤、长达 70...

<span class=“js_title_inner“>加州大学构建基于全连接神经网络的片上光谱仪,在芯片级尺寸上实现8纳米的光谱分辨率</span>

HyperAI超神经
HyperAI超神经 · 2026-01-26T03:06:27Z
2026年值得关注的图神经网络五大突破

本文概述了2026年图神经网络(GNN)的五大突破,包括动态GNN、可扩展特征融合、与大型语言模型的整合、多学科应用及安全防御机制。这些进展将推动实时分析、科学发现和安全部署,提升GNN在各领域的应用潜力。

2026年值得关注的图神经网络五大突破

KDnuggets
KDnuggets · 2026-01-22T13:00:12Z
[特殊字符]1篇搞懂AI通识:大白话拆解核心点

这篇文章介绍了人工智能(AI)的基本概念、核心方法和应用。AI的目标是让机器自主学习和决策,核心方法包括机器学习、深度学习和强化学习。文章还讨论了神经网络和Transformer架构在文本处理中的重要性,以及通过量化和微调等优化技术提升AI模型的效率和适应性。整体上,文章帮助读者理解AI的基本逻辑和实际价值。

[特殊字符]1篇搞懂AI通识:大白话拆解核心点

京东科技开发者
京东科技开发者 · 2026-01-16T07:42:10Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码