小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

在上一篇文章《MuP之上:1. 好模型的三个特征》中,我们提出了前向稳定性、依赖稳定性、更新稳定性这三个核心指标,并给出了相应的数学定义。同时,我们提出以它们是否满足$\Theta(1)$来刻画...

MuP之上:2. 线性层与最速下降

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2026-02-15T08:55:00Z
从线性回归到XGBoost:性能对比分析

本文比较了线性回归和XGBoost两种回归模型的性能。线性回归简单易懂,但在处理非线性数据时表现有限。XGBoost作为集成模型,能够更好地捕捉复杂的非线性模式,预测准确性显著提高。实验结果显示,XGBoost在加州房价数据集上的RMSE降低了30%,R²提高至0.83,显示出其优越性。因此,尽管线性回归是良好的起点,XGBoost通常能提供更好的预测结果。

从线性回归到XGBoost:性能对比分析

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-18T12:00:24Z
变换器模型中的线性层和激活函数

本文讨论了变换器模型中线性层和激活函数的重要性。它们使模型能够进行非线性变换,学习复杂模式。前馈网络通常包含多个线性层和激活函数,如GELU和SwiGLU,激活函数引入非线性,帮助模型更好地处理输入数据。

变换器模型中的线性层和激活函数

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-30T01:45:34Z

本研究针对现有语言模型在处理长距离上下文时的复杂度问题,提出了名为RWKV-X的混合架构。该模型结合了RWKV在短距离建模的高效性和稀疏注意力机制,从而在训练时实现线性时间复杂度,并在推理解码时达到恒定时间复杂度。RWKV-X的实验结果显示其在64K令牌检索基准测试中接近完美准确度,并在长上下文基准上持续超越之前的RWKV-7模型,为通用语言建模提供了高效的基础架构。

RWKV-X:一种线性复杂度的混合语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z
线性分析

我很高兴地分享,团队“Linealytics”在2025年Talent Land的Genius Arena Hackathon中获得决赛资格。我们利用Python和微软生态系统,开发了一个通过机器学习和线性编程动态优化生产与需求平衡的系统,并在Power BI中创建了可视化仪表板,自动生成报告和警报,最终部署在Azure上。感谢Micron和Talent Land的机会。

线性分析

DEV Community
DEV Community · 2025-04-29T04:13:47Z

本研究探讨了投影贝尔曼方程(PBE)的理论性质及求解算法,提出了PBE解的两个充分条件,并分析了SNRDD假设与线性Q学习和近似值迭代的收敛性关系。

理解投影贝尔曼方程、线性Q学习和近似值迭代的理论属性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

屋顶线性能模型通过比较应用性能与机器能力,识别软件实现和架构设计中的瓶颈。模型中,x轴表示算术强度,y轴表示计算性能。应用性能受内存带宽和处理器峰值性能限制,低算术强度时受内存限制,高算术强度时受处理器限制。实际应用性能通常低于理论峰值,可能因内存带宽或处理器未充分利用。

屋顶线性能模型

Lei Mao's Log Book
Lei Mao's Log Book · 2025-03-26T07:00:00Z

本研究针对线性序列建模和专家混合模型的融合提出了Linear-MoE,填补了大型模型训练和建模的效率与性能之间的差距。该系统利用线性复杂度序列建模的优势及专家混合层的稀疏激活,显著提高了训练效率和模型性能。实验结果表明,Linear-MoE在维持竞争力性能的同时,实现了效率提升,展现了作为下一代基础模型架构的潜力。

线性-MoE:线性序列建模与专家混合的结合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-07T00:00:00Z

本研究探讨大型语言模型(LLMs)如何在激活空间中反映美国政治中的不同政治观点,尤其是自由主义与保守主义之间的差异。通过分析模型的注意力机制,我们发现LLMs对政治意识形态具有线性表示,且可以通过线性干预改变模型生成文本的政治倾向。该研究显示了LLMs在理解和生成与人类政治观点相关的文本方面的潜力。

大型语言模型中的政治观点线性表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-03T00:00:00Z

该研究提出了一种混合记忆架构(MoM),有效解决线性序列建模中的记忆状态压缩问题,显著提高了记忆容量并减少了干扰。实验结果表明,该方法在回忆任务上优于现有技术,接近Transformer的性能。

MoM:基于混合记忆的线性序列建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-19T00:00:00Z
首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight

AIxiv专栏促进学术交流,报道超过2000篇研究。吴梓阳等提出的Token Statistics Transformer (ToST)通过线性时间注意力机制提升效率,解决传统Transformer的计算瓶颈,表现优异,具有广泛应用潜力。

首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight

机器之心
机器之心 · 2025-02-17T02:19:50Z

本研究提出了一种线性注意力方法L$^2$ViT,旨在解决视觉变换器在高分辨率图像应用中的时间和内存复杂性问题。该架构在保持线性计算复杂度的同时,有效捕捉全局和局部特征,实验结果显示其在图像分类任务中达到84.4%的Top-1准确率。

视觉变换器中的线性注意力复兴

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-27T00:00:00Z

本研究首次明确了带有线性时态逻辑LTL运算符的Datalog查询的数据复杂性,结果显示LogSpace为PSpace完全,而AC0、ACC0和NC1的判断可在ExpSpace中完成,揭示了复杂查询的可计算性边界。

关于决定具有LTL运算符的线性单子Datalog查询的数据复杂性(扩展版)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究针对大型语言模型(LLM)在部署过程中的参数庞大问题,提出了一种新的方法,称为TARDIS,通过将非线性激活函数部分线性化以实现参数减少。实验结果表明,TARDIS在前馈网络中可实现80%的参数减少,并在准确性上显著优于现有的剪枝方法,达到65%的提升,展示了其在加速大型语言模型推理过程中的潜在影响。

通过部分线性前馈网络加速大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-17T00:00:00Z

本研究提出了“神经元经验梯度”概念及NeurGrad方法,量化神经元激活与模型输出之间的关系。实验结果表明,该方法有效捕捉知识,揭示技能神经元的高效性,对理解预训练语言模型的知识存储机制具有重要意义。

神经元经验梯度:连接神经元的线性可控性与表征能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z
理解O(N):算法中的线性时间复杂度

O(N)表示算法的时间复杂度与输入规模成正比,适用于简单迭代问题,如查找数组最大值和计算总和。对于中等规模输入表现良好,但在极大输入时性能可能下降。

理解O(N):算法中的线性时间复杂度

DEV Community
DEV Community · 2024-12-10T21:09:57Z

本研究探讨了矢量值线性预测器的学习问题,重点关注凸和Lipschitz损失函数,描述了样本复杂度,并揭示了随机凸优化与矢量值线性预测之间的关系,具有重要的理论和实践意义。

矢量值预测的复杂性:从线性模型到随机凸优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
简单的力量:利用线性回归预测房价

本文探讨利用线性回归模型预测房价,分析影响房价的关键因素。内容涵盖数据准备、线性回归基础、Python实现及结果解读。

简单的力量:利用线性回归预测房价

DEV Community
DEV Community · 2024-11-24T22:20:20Z

本文研究了在Wasserstein空间中进行统计分析的复杂性,并提出通过使用线性最优传输(LOT)来解决这一问题。研究表明,LOT嵌入能够有效描述数据,并通过对2-Wasserstein空间中度量的Fréchet方差分解,量化了LOT嵌入解释的方差百分比,验证了其在分类准确性和方差解释能力方面的有效性。

带线性最优传输的融合Gromov-Wasserstein方差分解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-15T00:00:00Z

本研究提出线性情感空间(LES)和跨维注意力网络(CDAN),以解决一体化虚拟人物生成模型在细粒度情感编辑中的不足。实验结果表明,该方法在视觉质量和可控性方面优于主流技术。

LES-Talker:线性情感空间中可控的细粒度情感编辑与虚拟人物生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码