小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
参数与FLOPs:混合专家语言模型的最佳稀疏性扩展规律

研究表明,扩大语言模型的容量可以提升性能,主要通过增加模型参数和计算量来实现。稀疏专家混合模型(MoEs)在不显著增加计算量的情况下扩展参数数量。研究发现,在不同约束条件下,存在最佳稀疏水平,能够提高训练效率和模型性能,从而为MoEs的扩展提供了更深入的理解。

参数与FLOPs:混合专家语言模型的最佳稀疏性扩展规律

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-07T00:00:00Z
C语言得到变参数量的宏,0参数不会错误返回1,gcc和msvc都测试通过

文章讨论了C语言中可变参数宏的实现,介绍了如何使用宏计算参数数量,并通过定义不同的宏解决了在gcc和msvc编译器中处理零参数的问题,提供了测试代码以验证结果。

C语言得到变参数量的宏,0参数不会错误返回1,gcc和msvc都测试通过

DEV Community
DEV Community · 2025-05-08T15:32:11Z

本研究探讨了语言模型中参数数量与计算量之间的关系,重点分析了稀疏混合专家模型的稀疏性对性能的影响。研究表明,优化稀疏性能够提升训练效率和模型性能,为设计更高效的架构提供了新视角。

Parameters vs FLOPs: Scaling Laws for Optimal Sparsity in Mixture-of-Experts Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-21T00:00:00Z

本文介绍了如何在编译期检查SQL查询参数数量,利用Rust的宏定义tokens!实现。通过format!宏生成SQL文本,并将参数转换为Token,以确保参数数量匹配。

类似format!宏有没有比较好的方法实现编译期检查参数数量?

Rust.cc
Rust.cc · 2024-11-16T01:23:06Z

本研究探讨了过参数化对离群检测的影响,提出了一种新的离群风险度量。结果显示,当参数数量等于样本数量时,离群风险会出现无限峰值,且过参数化不一定提升离群检测效果。

双重下降与离群检测:模型复杂性角色的理论洞察与实证分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

该论文介绍了一种名为Convolutional KANs的新型卷积神经网络方法,通过将非线性激活函数集成到卷积中,准确性与传统方法相当,但参数数量减少一半,为神经网络架构优化提供了新途径。

重新思考 KAN 中神经元的功能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z

该论文介绍了一种名为Convolutional KANs的新型卷积神经网络方法,通过将非线性激活函数集成到卷积中,实验证明其在准确性方面与标准卷积神经网络相当,但参数数量仅为一半,为神经网络架构优化提供了新的途径。

科尔莫戈洛夫-阿诺德卷积:设计原则与实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

研究发现带有LoRA的细调预训练语言模型存在遗忘问题,遗忘量与参数数量和更新步数呈移位幂律增长。无法通过停止或调整参数数量来避免遗忘。这为减轻遗忘问题的细调方案开辟了安全关键方向。

通过指令向量进行大规模语言模型精调的可解释性灾难性遗忘

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-18T00:00:00Z

该论文提出了两个简单的改进措施:一是将重构作为辅助目标包含在词汇中以提高表示质量;二是演示了增加独立通道数量可显著提高嵌入质量,同时减少参数数量,甚至将非嵌入参数总数减少到七的极限。

Self-StrAE 在 SemEval-2024 任务 1 中:用更少地让自我结构化自编码器学习更多

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-02T00:00:00Z

研究发现带有LoRA的细调预训练语言模型存在遗忘问题,遗忘量与参数数量和更新步数呈移位幂律增长。无法通过停止或调整参数数量来避免遗忘。这为减轻遗忘问题的细调方案提供了重要方向。

微调强化学习模型其实是一种遗忘缓解问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-05T00:00:00Z

本研究提出了一种名为X-Net的新型神经网络,通过交替反向传播机制选择适当的激活函数,增强网络对特定任务的表示能力。X-Net的参数数量仅为基准的3%,在拟合任务上可以实现平均R^2=0.985。X-Net在多个学科的数据上取得了优异的结果。

一种新的神经计算范式:具有可学习神经元和适应结构的 X-Net

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-03T00:00:00Z

该论文提出了Swift Parameter-free Attention Network (SPAN)用于单幅图像超分辨率任务,实现了高效的超分辨率模型,平衡了参数数量、推断速度和图像质量,达到了质量和速度的平衡。

适用于高效超分辨率的无参数关注网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-21T00:00:00Z

该文介绍了一种名为自监督跨视图训练(SCT)的框架,用于缩小大型和小型预训练语言模型(PLM)之间的性能差距。SCT在7个语义文本相似性(STS)基准测试中,与5个基准和最先进的竞争对手相比,在21个案例中的18个中胜过竞争对手,对于参数少于100M的PLMs表现出色。

一种高效的自监督跨视角句子嵌入训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-06T00:00:00Z

本文介绍了一种适用于频域的深度模型,采用手工制作和数据驱动技术,以降低计算复杂性和参数数量,实现计算成本和准确性的平衡。

卷积神经网络用于 JPEG 图像:计算成本研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-20T00:00:00Z
奖励模型过度优化的规模法则

本文研究了基于人类反馈的强化学习中,固定“黄金标准”奖励模型与代理奖励模型之间的关系,发现优化方法会影响其变化形式,并探讨了数据集大小和参数数量等因素对这一关系的影响。

奖励模型过度优化的规模法则

OpenAI
OpenAI · 2022-10-19T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码