在上一篇文章《MuP之上:1. 好模型的三个特征》中,我们提出了前向稳定性、依赖稳定性、更新稳定性这三个核心指标,并给出了相应的数学定义。同时,我们提出以它们是否满足$\Theta(1)$来刻画...
本文比较了线性回归和XGBoost两种回归模型的性能。线性回归简单易懂,但在处理非线性数据时表现有限。XGBoost作为集成模型,能够更好地捕捉复杂的非线性模式,预测准确性显著提高。实验结果显示,XGBoost在加州房价数据集上的RMSE降低了30%,R²提高至0.83,显示出其优越性。因此,尽管线性回归是良好的起点,XGBoost通常能提供更好的预测结果。
本文讨论了变换器模型中线性层和激活函数的重要性。它们使模型能够进行非线性变换,学习复杂模式。前馈网络通常包含多个线性层和激活函数,如GELU和SwiGLU,激活函数引入非线性,帮助模型更好地处理输入数据。
本研究针对现有语言模型在处理长距离上下文时的复杂度问题,提出了名为RWKV-X的混合架构。该模型结合了RWKV在短距离建模的高效性和稀疏注意力机制,从而在训练时实现线性时间复杂度,并在推理解码时达到恒定时间复杂度。RWKV-X的实验结果显示其在64K令牌检索基准测试中接近完美准确度,并在长上下文基准上持续超越之前的RWKV-7模型,为通用语言建模提供了高效的基础架构。
我很高兴地分享,团队“Linealytics”在2025年Talent Land的Genius Arena Hackathon中获得决赛资格。我们利用Python和微软生态系统,开发了一个通过机器学习和线性编程动态优化生产与需求平衡的系统,并在Power BI中创建了可视化仪表板,自动生成报告和警报,最终部署在Azure上。感谢Micron和Talent Land的机会。
本研究探讨了投影贝尔曼方程(PBE)的理论性质及求解算法,提出了PBE解的两个充分条件,并分析了SNRDD假设与线性Q学习和近似值迭代的收敛性关系。
屋顶线性能模型通过比较应用性能与机器能力,识别软件实现和架构设计中的瓶颈。模型中,x轴表示算术强度,y轴表示计算性能。应用性能受内存带宽和处理器峰值性能限制,低算术强度时受内存限制,高算术强度时受处理器限制。实际应用性能通常低于理论峰值,可能因内存带宽或处理器未充分利用。
本研究针对线性序列建模和专家混合模型的融合提出了Linear-MoE,填补了大型模型训练和建模的效率与性能之间的差距。该系统利用线性复杂度序列建模的优势及专家混合层的稀疏激活,显著提高了训练效率和模型性能。实验结果表明,Linear-MoE在维持竞争力性能的同时,实现了效率提升,展现了作为下一代基础模型架构的潜力。
本研究探讨大型语言模型(LLMs)如何在激活空间中反映美国政治中的不同政治观点,尤其是自由主义与保守主义之间的差异。通过分析模型的注意力机制,我们发现LLMs对政治意识形态具有线性表示,且可以通过线性干预改变模型生成文本的政治倾向。该研究显示了LLMs在理解和生成与人类政治观点相关的文本方面的潜力。
该研究提出了一种混合记忆架构(MoM),有效解决线性序列建模中的记忆状态压缩问题,显著提高了记忆容量并减少了干扰。实验结果表明,该方法在回忆任务上优于现有技术,接近Transformer的性能。
AIxiv专栏促进学术交流,报道超过2000篇研究。吴梓阳等提出的Token Statistics Transformer (ToST)通过线性时间注意力机制提升效率,解决传统Transformer的计算瓶颈,表现优异,具有广泛应用潜力。
本研究提出了一种线性注意力方法L$^2$ViT,旨在解决视觉变换器在高分辨率图像应用中的时间和内存复杂性问题。该架构在保持线性计算复杂度的同时,有效捕捉全局和局部特征,实验结果显示其在图像分类任务中达到84.4%的Top-1准确率。
本研究首次明确了带有线性时态逻辑LTL运算符的Datalog查询的数据复杂性,结果显示LogSpace为PSpace完全,而AC0、ACC0和NC1的判断可在ExpSpace中完成,揭示了复杂查询的可计算性边界。
本研究针对大型语言模型(LLM)在部署过程中的参数庞大问题,提出了一种新的方法,称为TARDIS,通过将非线性激活函数部分线性化以实现参数减少。实验结果表明,TARDIS在前馈网络中可实现80%的参数减少,并在准确性上显著优于现有的剪枝方法,达到65%的提升,展示了其在加速大型语言模型推理过程中的潜在影响。
本研究提出了“神经元经验梯度”概念及NeurGrad方法,量化神经元激活与模型输出之间的关系。实验结果表明,该方法有效捕捉知识,揭示技能神经元的高效性,对理解预训练语言模型的知识存储机制具有重要意义。
O(N)表示算法的时间复杂度与输入规模成正比,适用于简单迭代问题,如查找数组最大值和计算总和。对于中等规模输入表现良好,但在极大输入时性能可能下降。
本研究探讨了矢量值线性预测器的学习问题,重点关注凸和Lipschitz损失函数,描述了样本复杂度,并揭示了随机凸优化与矢量值线性预测之间的关系,具有重要的理论和实践意义。
本文探讨利用线性回归模型预测房价,分析影响房价的关键因素。内容涵盖数据准备、线性回归基础、Python实现及结果解读。
本文研究了在Wasserstein空间中进行统计分析的复杂性,并提出通过使用线性最优传输(LOT)来解决这一问题。研究表明,LOT嵌入能够有效描述数据,并通过对2-Wasserstein空间中度量的Fréchet方差分解,量化了LOT嵌入解释的方差百分比,验证了其在分类准确性和方差解释能力方面的有效性。
本研究提出线性情感空间(LES)和跨维注意力网络(CDAN),以解决一体化虚拟人物生成模型在细粒度情感编辑中的不足。实验结果表明,该方法在视觉质量和可控性方面优于主流技术。
完成下面两步后,将自动完成登录并继续当前操作。