大型言语模型(LLM)取得突破性进展,混合专家模型(MoE)应运而生。DeepSeek-V2-Lite是轻量级的MoE模型,参数量减少近10倍,但功能不减。该模型在多个基准测试中表现优异,适用于低资源场景和高效推理。MoE模型研讨取得重大进展,为人工智能带来更多可能性。
本文介绍了一种基于深度强化学习的跨语言文本摘要模型,利用双语语义相似性作为奖励,取得了优于强基线的效果。研究表明,高容量多语言模型在零样本情况下表现更佳,并提出了一种新的参数高效的跨语言转移学习框架,显著减少语言间差异,尤其在低资源场景中。通过对齐方法和奖励模型的优化,提升了跨语言能力和生成模型的性能。
该研究构建了中文图像文本配对数据集,并提出了多种视觉-语言预训练模型(如CLIP和CLL-CLIP),在多语言图像-文本检索中表现优异。通过改进的训练方法和高效的微调框架,显著减少了语言差异,提升了低资源场景下的性能。实验结果表明,这些模型在视觉常识推理和视觉问答等任务中取得了先进效果。
该论文介绍了一种解决低资源场景下关系抽取的方法,通过自监督学习和对比学习进行预训练和微调。实验证明该方法在使用1%数据时,性能提高了10.5%和5.8%。
本文提出了一种新的参数高效的跨语言转移学习框架,利用基于翻译的对齐方法来缓解多语言差异,并探索参数高效的微调方法。经过实验表明,该框架显著减少了语言之间的差异,并在跨语言转移方面取得了改进,尤其在低资源场景中,同时只保留和微调极少量的参数。
本文提出了一种新的参数高效的跨语言转移学习框架,利用基于翻译的对齐方法来缓解多语言差异,并探索参数高效的微调方法。实验表明,该框架显著减少了语言之间的差异,在跨语言转移方面取得了改进,尤其在低资源场景中,同时只保留和微调极少量的参数。
本文提出了一种新的参数高效的跨语言转移学习框架,通过基于翻译的对齐方法缓解多语言差异,并探索参数高效的微调方法。实验证明,该框架显著减少了语言之间的差异,在跨语言转移方面取得了改进。尤其在低资源场景中,只需保留和微调极少量的参数,相比全模型仅需0.16%的额外参数。
完成下面两步后,将自动完成登录并继续当前操作。