小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

本文研究了扩散变换器(DiTs)在文本到图像生成中的效率,分析了架构选择和训练策略。结果表明,标准DiT在性能上与专门模型相当,但参数效率更高。通过层级参数共享策略,DiT-Air和DiT-Air-Lite在保持竞争力的同时,模型尺寸减少了66%。DiT-Air在GenEval和T2I CompBench上表现优异。

DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z

本研究提出了一种分布式量子-经典框架,将光子量子神经网络与矩阵积态映射结合,解决经典神经网络的参数效率训练问题。该框架在保持高分类精度的同时显著降低参数数量,展示了在近实时硬件条件下的鲁棒性,为分布式量子机器学习提供了可行路径。

Distributed Quantum Neural Networks on Distributed Photonic Quantum Computing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本文提出了一种新型分布式强化学习架构,利用归一化流模型返回分布,显著提升了参数效率,并在ATARI-5测试中超越了传统方法。

面向无限制和几何感知的分布式强化学习的流模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本研究提出了一种时间一致调制的神经视频表示框架(NVTM),旨在解决隐式神经表示在视频应用中的训练速度慢的问题。该框架通过将3D视频数据分解为2D网格,显著提高了编码速度和参数效率,同时保持合理的视频质量,展现了在视频压缩等任务上的优越性能。

Efficient Neural Video Representation with Temporally Coherent Modulation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

面壁智能与清华的CFM技术通过神经元级稀疏激活,提高了模型参数效率,降低了资源消耗,适合手机端应用。与MoE相比,CFM在稀疏化和动态性上更为优越,能够根据任务需求灵活激活神经元。

手机实现GPT级智能,比MoE更极致的稀疏技术:省内存效果不减|对话面壁&清华肖朝军

量子位
量子位 · 2025-04-12T07:16:09Z

本研究提出了VectorFit方法,解决了现有PEFT方法在低秩假设下的性能差距。VectorFit能够自适应地训练预训练模型的奇异向量和偏置,实验表明其在参数效率上优于传统PEFT方法,训练参数减少至九分之一,并在多种语言和视觉任务中表现出色。

Vector Fitting: Adaptive Singular and Bias Vector Fine-Tuning of Pre-trained Foundation Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了一种多核克罗内克适应方法(KARST),旨在提升传统视觉模型微调的参数效率和特征对齐能力。KARST通过扩展克罗内克投影和分离适应矩阵,增强了特征选择的灵活性。实验结果表明,在推理成本可忽略的情况下,KARST优于其他微调方法。

KARST: Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission for Visual Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

该研究提出了科尔莫戈罗夫-阿诺德-傅里叶网络(KAF),旨在解决高维任务中的参数爆炸和高频特征捕捉问题。KAF通过集成可训练的随机傅里叶特征和混合GELU-傅里叶激活机制,提高了参数效率和频谱表示能力。实验证明其在视觉、自然语言处理和音频处理等领域的表现优于现有方法。

Kolmogorov-Arnold Fourier Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-09T00:00:00Z

本研究探讨了大型语言模型(LLMs)与视觉模式整合的进展,分析了34种视觉大型语言模型(VLLMs),强调了训练范式的演变和参数效率,并提出了有效整合视觉模态的新方法,具有重要的指导价值。

Efficient Integration of Large Language Models with Visual Perception: A Survey from the Perspective of Training Paradigms

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z
我们应该从ModernBERT中学到什么?

2018年谷歌推出的BERT改变了自然语言处理。2024年,ModernBERT在小型语言模型上应用最新LLM技术,提升了参数效率和长文本处理能力。与jina-XLM-RoBERTa和RoBERTa-large相比,ModernBERT在代码理解和长文本处理上表现更佳,采用更深但更薄的架构,优化了词汇大小,提升了性能。

我们应该从ModernBERT中学到什么?

Jina AI
Jina AI · 2025-01-22T07:31:26Z
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

澳门大学、德克萨斯大学奥斯汀分校和剑桥大学的研究者合作提出了HydraLoRA,这是一种非对称LoRA架构。通过共享A矩阵和多个独立B矩阵,HydraLoRA减少了任务间干扰,提高了参数效率和模型性能。在多任务环境中,它表现出色,提升了准确性和效率,并优化了资源消耗,同时在能耗和延迟方面也有优势。

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

机器之心
机器之心 · 2024-10-20T07:56:00Z

本文研究了多种高效微调方法,重点介绍了低秩适应(LoRA)及其变种,包括LoRA-XS、Masked LoRA Experts (MLAE)和嵌套低秩适应(NoRA)。这些方法通过奇异值分解和新初始化策略,显著提升了模型性能和参数效率,减少了训练时间和内存使用。实验结果表明,这些新方法在多个基准测试中超越了传统LoRA。

一项初始化的方法:通过解释方差进行微调适应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

该论文提出了一种名为KernelWarehouse的动态卷积设计方法,通过重新定义卷积核和注意力函数的概念,在参数效率和表示能力之间实现了权衡。该方法通过核分区和仓库构建与共享的方式提高了动态卷积的性能,并在ImageNet和MS-COCO数据集上进行了实验证明了其有效性。与现有的动态卷积方法相比,KernelWarehouse在模型准确性和参数效率方面取得了显著的改进。

KernelWarehouse:英特尔开源轻量级涨点神器,动态卷积核突破100+ | ICML 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-09-09T04:32:00Z

本文探讨了混合专家(MoE)语言模型的效率与密集模型的比较,提出了DeepSeekMoE架构以提高专家专业化。研究表明,MoE模型在特定任务中优于密集模型,并提出了专家定制微调(ESFT)方法以提升训练效率。此外,提出了修剪相似专家以提高模型参数效率的方法,验证了其在自然语言任务中的优越性。

Nexus:专门化与适应性的结合以高效训练专家混合模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

本文介绍了多种针对预训练语言模型(PLMs)的剪枝方法,如Static Model Pruning、PAT、LLM-Pruner、Wanda和GBLM-Pruner。这些方法通过结构修剪和稀疏性诱导,在无需微调的情况下显著提升了模型性能和参数效率,尤其在零样本分类和生成任务中表现突出。研究表明,稀疏微调方法在指令调整上优于传统微调技术,推动了大型语言模型的优化与应用。

PAT:大语言模型的剪枝感知调优

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文介绍了多种低秩适应方法(LoRA),如ALoRA、MELoRA和ShareLoRA,旨在提高大型语言模型的参数效率和性能。这些方法在减少可训练参数的同时,保持或提升模型性能,有效解决了微调时的内存占用问题。实验结果表明,LoRA及其变种在多个任务上优于基准模型,展现出良好的迁移学习能力和鲁棒性。

偏见意识低秩适应:缓解大型语言模型的灾难性继承

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

本文介绍了一种基于多模态深度共生的提示微调方法,结合视觉和语言模型,提升了图像识别和泛化能力。提出的动态视觉提示调整框架在多项下游任务中表现优异,超越了传统微调方法,展现出良好的参数效率和适应性。

SDPT:融合视觉语言预训练模型的同步双提示调优

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

本文介绍了一种新框架Blend&Grind-HGNN(BG-HGNN),有效解决了现有HGNN在处理复杂异构图时的问题。BG-HGNN通过统一特征空间提高了参数效率、训练吞吐量和准确性。研究表明,BG-HGNN在多个方面显著优于现有HGNN,并构建了异质图基准(HGB)以促进HGNN研究的可重复性和鲁棒性。

在 GPU 上对 HGNN 训练的特征和理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

本文提出了一种新方法,通过低秩逼近和特征蒸馏模块提高预训练模型的参数效率,减少原始模型参数1/3至2/3,同时保持性能。研究比较了多种参数高效微调方法,强调在微调大型语言模型时的实际效率,并通过引入重要性评分机制和统一框架,优化了持续学习和迁移学习的效果,提升了模型的性能和鲁棒性。

增加模型容量的免费方式:参数高效微调的简单策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

本文探讨了混合密集与稀疏模型(DS-MoE)在训练和推理中的优势,显示其在参数效率和计算成本上优于传统稀疏模型。研究表明,混合专家模型在多语言生成和任务推广中表现出色,并提出了改进路由机制的策略以提升性能。未来研究将集中于优化混合专家模型的设计和多模态表示能力。

稀疏专家混合模型构建可靠的语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码