本文介绍了MoE-PHDS(后hoc声明稀疏性),一种轻量级的SFT方法,允许在推理时灵活调整稀疏性,而无需更换模型或架构。PHDS通过在不同稀疏水平上训练,提高了模型的准确性和延迟可预测性,简化了MoE的部署,并提升了跨稀疏性的一致性。实验结果显示,PHDS在多个操作点上优于传统模型。
混合专家(MoE)架构在变换器模型中引入稀疏性,允许模型高效扩展而不增加计算成本。MoE通过多个专家模型处理输入,使用路由器选择合适的专家。每个变换器层都有独立的专家集,激活部分参数以提升性能。MoE的实现包括专家网络、路由机制和输出组合,能够在保持低计算资源的同时提升模型表现。
本研究探讨了生物信息指导的神经网络在生物医学中的应用,发现稀疏性比生物通路相关性更能提升模型性能。随机化模型在多个指标上表现与生物指导模型相当,甚至更优,提示生物通路注释可能过于嘈杂,建议采用标准化方法比较新旧模型。
本研究提出了一种新的异方差双贝叶斯弹性网(HDBEN)框架,旨在解决高维回归模型中误差方差不恒定的问题。HDBEN通过联合建模均值和对数方差,进行稀疏性和分组的回归系数及方差参数估计。理论分析和仿真结果表明,其在异方差和高维情境下优于现有方法,具有重要的应用价值。
麻省理工学院研究人员开发的自动化系统SySTeC,通过利用数据冗余和稀疏性、对称性,优化深度学习算法,显著提高计算效率,速度提升近30倍,适用于多种应用,帮助非专家科学家提升AI算法性能。
本文探讨了扩散模型在生成高质量图像时速度慢的问题,提出了一种新方法,通过激进量化和显著稀疏性提升来加速生成过程并降低能耗。
本研究提出了HashAttention,一种提高长上下文注意力计算效率的方法。HashAttention通过将关键token识别视为推荐问题,实现了$32 imes$的稀疏性,显著提升了模型推理速度,具有重要的实际应用潜力。
本文探讨了如何通过放宽Top-K精确要求来提高在高度并行的机器学习加速器上的并行性。研究表明,近似Top-K算法能有效提升稀疏性算法在语言模型中的性能。
本研究提出了一种新技术,解决了深度神经网络在极端稀疏性下性能下降的问题,实现了99.90%至99.99%的稀疏性而不影响准确性,从而提升了网络性能,增强了模型在受限设备上的应用潜力。
本文探讨了ReLU变换器中多层感知机(MLPs)的稀疏性,分析了训练过程中令牌级稀疏性的演变及其与序列或批次稀疏模式的关系,发现不同层具有特定的稀疏模式,尤其是第一层和最后一层的稀疏性呈现相反关系,并讨论了“神经元死亡”现象的成因。
我们分析了OPT家族的大型语言模型,发现早期网络稀疏,许多神经元未激活,活跃神经元主要关注离散特征。随着模型规模增大,稀疏性和死神经元增多,部分神经元的激活与位置关系密切。
本研究提出了一种新方法sTAB-Net,通过引入注意力机制解决表格数据神经网络中的稀疏性问题。实验结果表明,该方法在生物数据集上优于传统树模型,具有重要的应用价值。
清华大学和香港科技大学的研究提出了一种新的加速器设计,解决多模态Transformer模型在硬件执行时的稀疏性问题。通过优化调度器、令牌修剪器和自适应网络,提高了计算效率,减少了延迟。多模态模型在视觉问答和图像描述等领域有广泛应用,未来将进一步推动AI发展。
本研究提出了$(\lambda, \beta)$-稀疏性的新概念,通过创新算法将复杂度从线性依赖组数$K$转变为依赖较小的$\beta$,提高了模型效率。此外,还展示了一种自适应算法,使样本复杂度适应最佳稀疏性条件。
我们提出了一种新的权重量化方法A2Q,用于训练量化神经网络,避免低精度累加器溢出。A2Q通过约束权重的L1范数,促进稀疏性,确保溢出避免。在计算机视觉任务中,A2Q在保持准确性的同时,提高FPGA资源效率,资源利用率降低2.3倍,准确性保持在99.2%。
本研究通过引入两个新颖的合作环境,Multi-Agent Pong和Collectors,解决了新兴语言在复杂多智能体系统中的通信不足问题。研究发现,代理只有在需要协调以取得成功的状态下才会生成有意义的信息,强调了这种通信的稀疏性和必要性。
通过稀疏性加速预训练大型语言模型的训练过程,提高计算速度,实现了与标准训练相媲美甚至更好的性能。在持续预训练中,吞吐量提升了45%,在监督微调中节省了38%的训练时间。这提供了一个简单、硬件无关且易于部署的额外LLM训练框架。
Ayman Chaouki, Jesse Read, Albert Bifet提出了一种新的算法,结合了动态规划和分支界限方法,提供了速度和稀疏性解决方案。通过理论分析和实证评估,证明了该算法比现有方法更低复杂性,并始终产生最优的决策树。
该研究提出了一种使用稀疏性加速预训练大型语言模型的方法,通过排除不活跃的神经元以提高计算速度。实验结果表明,该方法在性能上与标准训练相媲美甚至更好,吞吐量提升了45%,节省了38%的训练时间。
本文介绍了一种新颖的Kaczmarz算法,用于高阶张量数据的稀疏性和/或低秩性重建,并对算法进行了收敛分析。实验结果显示该方法在图像和视频处理任务中具有潜力和有效性。
完成下面两步后,将自动完成登录并继续当前操作。