小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了一种名为Subformer的算法,通过参数共享和自我关注嵌入技术提升机器翻译、摘要和语言建模等任务的性能。研究表明,参数共享优化了训练收敛并降低了模型复杂度。此外,提出的FinerCut剪枝方法优化了Transformer网络,提高了效率并保持了语言能力。研究还探讨了KV缓存共享技术,发现其在减少缓存时仍能保持性能,推动了大型语言模型的高效应用。

放松递归变压器:层级LoRA的有效参数共享

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

这篇论文探讨了开发高效大型语言模型的新方法,强调模型大小、性能与计算资源的权衡。研究发现共享参数可以减少唯一参数数量,从而提升模型效率。评估结果显示,模型规模越大,性能越好,但仍未达到人类水平。此外,研究分析了模型在教育和决策任务中的应用及其局限性,为未来的AI语言建模提供了重要见解。

通过模型特征评估对话游戏自对话性能所需参数数量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

本文介绍了联邦学习中的异构模型集成与协同训练技术,包括知识蒸馏和参数共享与迁移学习。异构模型集成可以提高模型的泛化能力和鲁棒性,应用于智能医疗诊断系统和智能交通管理系统。

详解联邦学习中的异构模型集成与协同训练技术

华为云官方博客
华为云官方博客 · 2024-06-19T02:46:55Z
LORS:腾讯提出低秩残差结构,瘦身模型不掉点 | CVPR 2024 - 晓飞的算法工程笔记

深度学习模型中的堆叠结构导致参数数量激增,影响应用。为解决此问题,提出低秩残差结构(LORS),允许模块共享大部分参数,仅需少量独特参数。实验表明,LORS可减少解码器70%的参数,同时保持或提升性能。

LORS:腾讯提出低秩残差结构,瘦身模型不掉点 | CVPR 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-04-22T05:20:00Z

该研究探讨了在低资源环境下,模型与提示调节策略在问答系统中的应用。结果表明,良好初始化下的提示调节表现优异,参数共享提升了性能。此外,提出了多级提示调优方法和新框架,显著改善了机器阅读理解和代码审查任务的效果。

关于公共代码审查中的请求质量保证的统一提示调整

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

研究表明,Transformer-XL模型在预测未来话语时性能逐渐降低。为此,提出动态语言建模,通过更新知识来改善性能。新模型Multiverse生成多个未来路径,并通过3D模拟器进行测试。研究发现,参数共享能提高模型性能,多路径结构在机器翻译中表现优异。通过优化参数剪枝,模型大小可显著减少而不影响性能。

分岔路径的花园:大型语言模型中动态参数分布的观测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-13T00:00:00Z

本文探讨了多智能体强化学习中的参数共享和价值分解问题,指出在某些环境下可能导致不良结果。相比之下,个体策略的策略梯度方法表现更佳。研究提出了一种基于结构剪枝的深度神经网络方法,显著提高了性能,并在多种测试环境中验证了其有效性。

PPS-QMIX: 周期性参数共享加速多智能体强化学习的收敛

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-05T00:00:00Z

该研究发现合作多智能体强化学习中的价值分解和参数共享可能导致问题和不良结果,而个体策略的策略梯度方法在这些情况下表现良好。研究提出实用建议,并在多个领域进行了实证验证,有助于开发更强大的多智能体强化学习算法。

基于噪声分布分解的多智能体分布式强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-12T00:00:00Z

本文介绍了一种利用神经常微分方程构建的技术,提高了参数共享的预训练语言模型的推理效率,并实现了更大的推理加速。实验结果证明了该方法在自回归和自编码 PLMs 上的有效性,并为在资源受限环境中更高效地利用参数共享模型提供了新的见解。

提升推理效率:释放参数共享的预训练语言模型的力量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-19T00:00:00Z

该研究提出了一种新的高效大型语言模型开发方法,探讨了模型大小、性能和计算资源之间的权衡,发现了允许模型不同部分共享参数的新方法。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具,为 AI 语言建模的可持续和可访问的未来做出了贡献。

从文字到瓦特:大型语言模型推理的能源成本基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-04T00:00:00Z

研究人员通过使用新的Transformer架构和任务条件模块实现了更有效的参数共享,并通过保持预训练模型的一半权重来缓解遗忘。他们还采用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。在GLUE上,他们的八任务模型超过了其他Adapter方法2.8%,而他们的24任务模型在使用MTL和单任务微调的模型上表现优异。他们还展示了他们的单个多任务模型方法在26个NLP任务中竞争,并在一些测试和开发集上取得了最先进的结果。

自然语言处理中使用基于 Transformer 的多任务学习的挑战与机遇:一项调研

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码