本研究提出了两种有效的方法,以解决多任务场景下模型合并性能下降的问题。实验结果表明,这些方法在样本数量和训练步数上优于传统多任务学习,显著提升了模型性能。
本研究提出了一种新的遗忘系统TIES-Merging,通过模型合并方法选择性删除大型语言模型中的敏感知识。该系统在26个团队中排名第二,展示了其有效性,并呼吁重新思考遗忘目标和评估方法。
本研究提出了一种新方法——Frank-Wolfe合并(FW-Merging),旨在解决多任务学习中模型合并的适应性和扩展性问题。FW-Merging通过约束优化显著提高了合并的准确性和稳定性,实验结果表明其在多个模型合并中表现优异,且内存开销保持恒定,具有潜在应用价值。
本研究提出了Speech-FT策略,通过模型合并解决微调语音表示模型时的泛化能力下降问题,提供了一种高效的解决方案。
OpenAI计划将o系列与GPT系列合并为GPT-5,用户将根据订阅等级自动获得不同的智能级别,从而简化模型选择,提升使用体验。
本文提出了一种自动化模型合并框架,克服了手动设计超参数合并策略的局限性。该框架利用多保真近似方法,支持单目标和多目标优化,能够在有限计算成本下自动发现有效的合并方案。
Apktool 是用于逆向工程 Android apk 文件的工具,支持解码和重建应用资源,方便开发者调试和修改。Pixelfed 是一个道德的照片分享平台,支持 ActivityPub 协议。ton 是构建和运行 TON 区块链的代码库,兼容多种操作系统。evolutionary-model-merge 提供模型合并的优化与评估工具。
本研究提出了LoRACLR方法,解决个性化模型合并中的属性缠结问题。该方法能够无缝整合多个LoRA模型,提升个性化图像生成能力,无需单独微调。研究结果表明,LoRACLR在准确合并多个概念方面表现优异。
本研究探讨了通过回收不同训练轮次的模型检查点来优化多个任务训练的通用模型合并。研究表明,调整检查点权重的线性组合可以生成性能优于单个模型的帕累托最优模型,甚至表现不佳的检查点也能改善合并效果。
论文提出了一种新方法 exttt{Pcb-Merging},通过平衡参数竞争优化模型合并,提升性能而无需额外训练。该方法评估参数的重要性和相似性,舍弃低分参数并进行重新缩放,适用于多种任务和领域,显著超越现有技术。
本研究提出Fisher合并方法,以提高模型合并的效率和性能。通过对不同数据集模型的加权平均,探讨了模型合并的潜力与挑战,并提出新的正则化方法以提升合并效果。研究结果表明,强大的基础模型和较大模型显著改善合并性能,为未来研究提供重要参考。
本研究提出了一种新方法(ATM),通过优化任务向量选择,提高多任务学习中的模型合并效率,计算机视觉和自然语言处理任务的准确率最高可提升20%。
该论文研究了多目标域适应中的模型合并技术,提出在不直接访问训练数据的情况下合并独立模型。通过参数和缓冲区的合并,结果表明线性合并足以实现鲁棒性,其性能与数据组合训练相当。
本研究提出了一种新的渐进式LoRA训练策略CopRA,旨在解决标准LoRA训练中模型快速收敛于局部最优的问题。实验结果表明,CopRA在模型合并和剪枝任务中表现优异。
本研究提出了一种新策略LoRM,旨在解决深度学习中模型合并的瓶颈问题。该策略在联邦持续学习中保持模型一致性,显著提升性能,并在多种场景中展现了先进成果。
本研究提出了一种无约束模型合并框架,解决创建强大通用大语言模型的资源和数据限制问题。该框架兼容不同模型架构,专注于推理任务,通过模型合并实现了超越简单加性效果的组合推理,推动去中心化大语言模型的发展。
研究探讨了非局部模型合并的挑战,指出传统技术在处理预训练模型变化时的局限性。提出一种多任务技术,通过调整输出激活提升模型合并性能,为未来研究奠定基础。
当前模型合并技术常忽视安全对齐,导致模型不对齐。研究评估了几种合并方法,发现它们会传播错对齐。我们提出两步法:生成安全和领域数据,并将其用于模型合并优化。实验表明,该方法能提升模型的专业性和对齐性。
本研究探讨大型语言模型在多语言环境中的安全使用,特别关注西方中心数据集的偏见问题。研究发现,目标导向的模型合并比混合数据更有效,性能提升8%,安全性提升10%。跨语言模型合并也取得显著成效,为构建强大且安全的多语言模型提供了框架。
在大型语言模型时代,模型合并面临干扰和异构数据的挑战。Twin-Merging方法通过将知识模块化为共享和专属组件,动态合并任务特定知识,缩小与微调模型的性能差距,提高对异构数据的适应性。实验表明,该方法在判别任务中提升28.34%,在生成任务上超越微调模型。
完成下面两步后,将自动完成登录并继续当前操作。