本文研究了扩散变换器(DiTs)在文本到图像生成中的效率,分析了架构选择和训练策略。结果表明,标准DiT在性能上与专门模型相当,但参数效率更高。通过层级参数共享策略,DiT-Air和DiT-Air-Lite在保持竞争力的同时,模型尺寸减少了66%。DiT-Air在GenEval和T2I CompBench上表现优异。
本研究提出了一种分布式量子-经典框架,将光子量子神经网络与矩阵积态映射结合,解决经典神经网络的参数效率训练问题。该框架在保持高分类精度的同时显著降低参数数量,展示了在近实时硬件条件下的鲁棒性,为分布式量子机器学习提供了可行路径。
本文提出了一种新型分布式强化学习架构,利用归一化流模型返回分布,显著提升了参数效率,并在ATARI-5测试中超越了传统方法。
本研究提出了一种时间一致调制的神经视频表示框架(NVTM),旨在解决隐式神经表示在视频应用中的训练速度慢的问题。该框架通过将3D视频数据分解为2D网格,显著提高了编码速度和参数效率,同时保持合理的视频质量,展现了在视频压缩等任务上的优越性能。
面壁智能与清华的CFM技术通过神经元级稀疏激活,提高了模型参数效率,降低了资源消耗,适合手机端应用。与MoE相比,CFM在稀疏化和动态性上更为优越,能够根据任务需求灵活激活神经元。
本研究提出了VectorFit方法,解决了现有PEFT方法在低秩假设下的性能差距。VectorFit能够自适应地训练预训练模型的奇异向量和偏置,实验表明其在参数效率上优于传统PEFT方法,训练参数减少至九分之一,并在多种语言和视觉任务中表现出色。
本研究提出了一种多核克罗内克适应方法(KARST),旨在提升传统视觉模型微调的参数效率和特征对齐能力。KARST通过扩展克罗内克投影和分离适应矩阵,增强了特征选择的灵活性。实验结果表明,在推理成本可忽略的情况下,KARST优于其他微调方法。
该研究提出了科尔莫戈罗夫-阿诺德-傅里叶网络(KAF),旨在解决高维任务中的参数爆炸和高频特征捕捉问题。KAF通过集成可训练的随机傅里叶特征和混合GELU-傅里叶激活机制,提高了参数效率和频谱表示能力。实验证明其在视觉、自然语言处理和音频处理等领域的表现优于现有方法。
本研究探讨了大型语言模型(LLMs)与视觉模式整合的进展,分析了34种视觉大型语言模型(VLLMs),强调了训练范式的演变和参数效率,并提出了有效整合视觉模态的新方法,具有重要的指导价值。
2018年谷歌推出的BERT改变了自然语言处理。2024年,ModernBERT在小型语言模型上应用最新LLM技术,提升了参数效率和长文本处理能力。与jina-XLM-RoBERTa和RoBERTa-large相比,ModernBERT在代码理解和长文本处理上表现更佳,采用更深但更薄的架构,优化了词汇大小,提升了性能。
澳门大学、德克萨斯大学奥斯汀分校和剑桥大学的研究者合作提出了HydraLoRA,这是一种非对称LoRA架构。通过共享A矩阵和多个独立B矩阵,HydraLoRA减少了任务间干扰,提高了参数效率和模型性能。在多任务环境中,它表现出色,提升了准确性和效率,并优化了资源消耗,同时在能耗和延迟方面也有优势。
本文研究了多种高效微调方法,重点介绍了低秩适应(LoRA)及其变种,包括LoRA-XS、Masked LoRA Experts (MLAE)和嵌套低秩适应(NoRA)。这些方法通过奇异值分解和新初始化策略,显著提升了模型性能和参数效率,减少了训练时间和内存使用。实验结果表明,这些新方法在多个基准测试中超越了传统LoRA。
该论文提出了一种名为KernelWarehouse的动态卷积设计方法,通过重新定义卷积核和注意力函数的概念,在参数效率和表示能力之间实现了权衡。该方法通过核分区和仓库构建与共享的方式提高了动态卷积的性能,并在ImageNet和MS-COCO数据集上进行了实验证明了其有效性。与现有的动态卷积方法相比,KernelWarehouse在模型准确性和参数效率方面取得了显著的改进。
本文探讨了混合专家(MoE)语言模型的效率与密集模型的比较,提出了DeepSeekMoE架构以提高专家专业化。研究表明,MoE模型在特定任务中优于密集模型,并提出了专家定制微调(ESFT)方法以提升训练效率。此外,提出了修剪相似专家以提高模型参数效率的方法,验证了其在自然语言任务中的优越性。
本文介绍了多种针对预训练语言模型(PLMs)的剪枝方法,如Static Model Pruning、PAT、LLM-Pruner、Wanda和GBLM-Pruner。这些方法通过结构修剪和稀疏性诱导,在无需微调的情况下显著提升了模型性能和参数效率,尤其在零样本分类和生成任务中表现突出。研究表明,稀疏微调方法在指令调整上优于传统微调技术,推动了大型语言模型的优化与应用。
本文介绍了多种低秩适应方法(LoRA),如ALoRA、MELoRA和ShareLoRA,旨在提高大型语言模型的参数效率和性能。这些方法在减少可训练参数的同时,保持或提升模型性能,有效解决了微调时的内存占用问题。实验结果表明,LoRA及其变种在多个任务上优于基准模型,展现出良好的迁移学习能力和鲁棒性。
本文介绍了一种基于多模态深度共生的提示微调方法,结合视觉和语言模型,提升了图像识别和泛化能力。提出的动态视觉提示调整框架在多项下游任务中表现优异,超越了传统微调方法,展现出良好的参数效率和适应性。
本文介绍了一种新框架Blend&Grind-HGNN(BG-HGNN),有效解决了现有HGNN在处理复杂异构图时的问题。BG-HGNN通过统一特征空间提高了参数效率、训练吞吐量和准确性。研究表明,BG-HGNN在多个方面显著优于现有HGNN,并构建了异质图基准(HGB)以促进HGNN研究的可重复性和鲁棒性。
本文提出了一种新方法,通过低秩逼近和特征蒸馏模块提高预训练模型的参数效率,减少原始模型参数1/3至2/3,同时保持性能。研究比较了多种参数高效微调方法,强调在微调大型语言模型时的实际效率,并通过引入重要性评分机制和统一框架,优化了持续学习和迁移学习的效果,提升了模型的性能和鲁棒性。
本文探讨了混合密集与稀疏模型(DS-MoE)在训练和推理中的优势,显示其在参数效率和计算成本上优于传统稀疏模型。研究表明,混合专家模型在多语言生成和任务推广中表现出色,并提出了改进路由机制的策略以提升性能。未来研究将集中于优化混合专家模型的设计和多模态表示能力。
完成下面两步后,将自动完成登录并继续当前操作。