探索稀疏专家混合模型在多领域神经机器翻译中的潜力
原文中文,约400字,阅读约需1分钟。发表于: 。我们关注多领域神经机器翻译,旨在开发能够处理训练期间见过的各种领域数据并对未见过的领域具有鲁棒性的高效模型。我们假设稀疏专家混合(SMoE)模型非常适合这个任务,因为它们能够实现高效的模型扩展,有助于适应各种多领域数据,并允许领域间参数的灵活共享,从而可能实现类似领域之间的知识传递,并限制负面传递。我们进行了一系列实验证实 SMoE 在多领域场景中的效用,并发现在实践中,对...
该研究使用稀疏专家混合(SMoE)模型处理多领域神经机器翻译数据,并发现简单的宽度扩展可以达到相同的性能水平。研究还提出了领域随机化技术来提高多领域系统的鲁棒性。