小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
MoE-PHDS:一个用于灵活运行时稀疏性的MoE检查点

本文介绍了MoE-PHDS(后hoc声明稀疏性),一种轻量级的SFT方法,允许在推理时灵活调整稀疏性,而无需更换模型或架构。PHDS通过在不同稀疏水平上训练,提高了模型的准确性和延迟可预测性,简化了MoE的部署,并提升了跨稀疏性的一致性。实验结果显示,PHDS在多个操作点上优于传统模型。

MoE-PHDS:一个用于灵活运行时稀疏性的MoE检查点

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z
变换器模型中的混合专家架构

混合专家(MoE)架构在变换器模型中引入稀疏性,允许模型高效扩展而不增加计算成本。MoE通过多个专家模型处理输入,使用路由器选择合适的专家。每个变换器层都有独立的专家集,激活部分参数以提升性能。MoE的实现包括专家网络、路由机制和输出组合,能够在保持低计算资源的同时提升模型表现。

变换器模型中的混合专家架构

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-01T03:19:28Z

本研究探讨了生物信息指导的神经网络在生物医学中的应用,发现稀疏性比生物通路相关性更能提升模型性能。随机化模型在多个指标上表现与生物指导模型相当,甚至更优,提示生物通路注释可能过于嘈杂,建议采用标准化方法比较新旧模型。

Sparsity is All You Need: Rethinking Deep Learning Approaches Informed by Biological Pathways

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本研究提出了一种新的异方差双贝叶斯弹性网(HDBEN)框架,旨在解决高维回归模型中误差方差不恒定的问题。HDBEN通过联合建模均值和对数方差,进行稀疏性和分组的回归系数及方差参数估计。理论分析和仿真结果表明,其在异方差和高维情境下优于现有方法,具有重要的应用价值。

Heteroscedastic Double Bayesian Elastic Net

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z
用户友好的系统可以帮助开发者构建更高效的仿真和人工智能模型

麻省理工学院研究人员开发的自动化系统SySTeC,通过利用数据冗余和稀疏性、对称性,优化深度学习算法,显著提高计算效率,速度提升近30倍,适用于多种应用,帮助非专家科学家提升AI算法性能。

用户友好的系统可以帮助开发者构建更高效的仿真和人工智能模型

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-02-03T05:00:00Z

本文探讨了扩散模型在生成高质量图像时速度慢的问题,提出了一种新方法,通过激进量化和显著稀疏性提升来加速生成过程并降低能耗。

SQ-DM: Accelerating Diffusion Models Using Aggressive Quantization and Temporal Sparsity

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-26T00:00:00Z

本研究提出了HashAttention,一种提高长上下文注意力计算效率的方法。HashAttention通过将关键token识别视为推荐问题,实现了$32 imes$的稀疏性,显著提升了模型推理速度,具有重要的实际应用潜力。

HashAttention: Semantic Sparsity for Faster Inference

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本文探讨了如何通过放宽Top-K精确要求来提高在高度并行的机器学习加速器上的并行性。研究表明,近似Top-K算法能有效提升稀疏性算法在语言模型中的性能。

Bucket-Based Approximate Top-K Algorithms for Enhanced Parallelism

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出了一种新技术,解决了深度神经网络在极端稀疏性下性能下降的问题,实现了99.90%至99.99%的稀疏性而不影响准确性,从而提升了网络性能,增强了模型在受限设备上的应用潜力。

Pushing the Limits of Sparsity: A Toolkit for Extreme Pruning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

本文探讨了ReLU变换器中多层感知机(MLPs)的稀疏性,分析了训练过程中令牌级稀疏性的演变及其与序列或批次稀疏模式的关系,发现不同层具有特定的稀疏模式,尤其是第一层和最后一层的稀疏性呈现相反关系,并讨论了“神经元死亡”现象的成因。

神经网络训练动态的视觉案例研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

我们分析了OPT家族的大型语言模型,发现早期网络稀疏,许多神经元未激活,活跃神经元主要关注离散特征。随着模型规模增大,稀疏性和死神经元增多,部分神经元的激活与位置关系密切。

傅里叶头:帮助大语言模型学习复杂概率分布

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本研究提出了一种新方法sTAB-Net,通过引入注意力机制解决表格数据神经网络中的稀疏性问题。实验结果表明,该方法在生物数据集上优于传统树模型,具有重要的应用价值。

逃离森林:适用于表格数据的稀疏可解释神经网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-23T00:00:00Z

清华大学和香港科技大学的研究提出了一种新的加速器设计,解决多模态Transformer模型在硬件执行时的稀疏性问题。通过优化调度器、令牌修剪器和自适应网络,提高了计算效率,减少了延迟。多模态模型在视觉问答和图像描述等领域有广泛应用,未来将进一步推动AI发展。

在多模态应用中使用的存储器计算技术——详细解析 ISSCC 2023 16.1 Multcim

DEV Community
DEV Community · 2024-10-16T07:12:43Z

本研究提出了$(\lambda, \beta)$-稀疏性的新概念,通过创新算法将复杂度从线性依赖组数$K$转变为依赖较小的$\beta$,提高了模型效率。此外,还展示了一种自适应算法,使样本复杂度适应最佳稀疏性条件。

超越最小极大速率的群体分布鲁棒优化:一种新颖的稀疏性概念

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z

我们提出了一种新的权重量化方法A2Q,用于训练量化神经网络,避免低精度累加器溢出。A2Q通过约束权重的L1范数,促进稀疏性,确保溢出避免。在计算机视觉任务中,A2Q在保持准确性的同时,提高FPGA资源效率,资源利用率降低2.3倍,准确性保持在99.2%。

考虑累加器的后训练量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

本研究通过引入两个新颖的合作环境,Multi-Agent Pong和Collectors,解决了新兴语言在复杂多智能体系统中的通信不足问题。研究发现,代理只有在需要协调以取得成功的状态下才会生成有意义的信息,强调了这种通信的稀疏性和必要性。

开放环境中的新兴语言

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-26T00:00:00Z

通过稀疏性加速预训练大型语言模型的训练过程,提高计算速度,实现了与标准训练相媲美甚至更好的性能。在持续预训练中,吞吐量提升了45%,在监督微调中节省了38%的训练时间。这提供了一个简单、硬件无关且易于部署的额外LLM训练框架。

ShadowLLM: 基于预测的上下文稀疏化大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

Ayman Chaouki, Jesse Read, Albert Bifet提出了一种新的算法,结合了动态规划和分支界限方法,提供了速度和稀疏性解决方案。通过理论分析和实证评估,证明了该算法比现有方法更低复杂性,并始终产生最优的决策树。

分支:用于优化决策树的快速动态规划和分支限界算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-04T00:00:00Z

该研究提出了一种使用稀疏性加速预训练大型语言模型的方法,通过排除不活跃的神经元以提高计算速度。实验结果表明,该方法在性能上与标准训练相媲美甚至更好,吞吐量提升了45%,节省了38%的训练时间。

大规模语言模型的稀疏加速训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

本文介绍了一种新颖的Kaczmarz算法,用于高阶张量数据的稀疏性和/或低秩性重建,并对算法进行了收敛分析。实验结果显示该方法在图像和视频处理任务中具有潜力和有效性。

高阶张量恢复的 L1 - 范数正则化 Kaczmarz 算法的能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码