小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了辍学机制在深度学习中的作用,提出将训练视为在高维图中对二进制子网络的随机游走。研究表明,良好泛化的子网络形成低阻抗簇,且数量随网络宽度指数增加,强调了辍学在采样中的重要性。

The Combinatorial Theory of Dropout: Subnetworks, Graph Geometry, and Generalization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z

本研究提出了一种新方法,通过可微分的子网络划分框架和谱模度最大化优化策略,成功模块化三铰螺旋(3HG)结构,为理解大脑连接性提供了重要基础。

GyralNet Subnetwork Partitioning via Differentiable Spectral Modularity Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究探讨了预训练语言模型中的子网络及其对多任务学习的影响,提出了一种权重掩蔽方案以删除特定知识,同时保留语言建模能力。研究发现语言模块化自然形成,稀疏微调可能减少子网络的语言专门化。实证研究表明,结构化记忆的网络在推广任务时表现更佳,且模型大小与性能之间存在关联。这些发现对模型可解释性和多任务学习具有重要意义。

启发式核心:理解预训练语言模型的子网络泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-06T00:00:00Z

该论文提出了一种简单高效的优化神经网络超参数的方法,采用边缘似然作为优化目标,将训练数据和神经网络模型分片并优化每个分区,最后通过子网络的“训练外样本”损失来优化多种不同类型的超参数。该方法特别适用于联邦学习中优化超参数的情况。

NeuroCUT: 面向鲁棒图分割的神经方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

SHARCS是一种自适应推理方法,通过训练路由器将不同难度的输入样本定向到具有不同宽度的子网络,能够泛化到不同的架构,提高效率并且能够在几乎不损失准确性的情况下提供2倍的推理加速。

SHARCS: 通过动态宽度子网络进行有效的 Transformer 路由

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

该论文研究了不同粒度的MoE模型中的路由策略,通过任务级路由在大规模数据集上实验,能够从大型稀疏模型中提取可部署的子网络。实验结果表明,task-MoE在WMT上的表现比token-MoE高1.0 BLEU,且保留了所有收益和推理成本。在扩展到200种语言对时,task-MoE提高了推理吞吐量2.6倍。

基于任务的 MoE 多任务多语言机器翻译

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码