小红花·文摘

本文介绍了一种名为LOLA的多语言大型语言模型，使用稀疏专家混合变换器架构进行训练。该模型涉及超过160种语言，通过学习的专家路由机制利用隐含的系统语言模式，在自然语言生成和理解任务中表现出竞争力。LOLA是一个开源模型，促进了可重复性，并为未来研究提供了基础。