Tower: 一种面向翻译相关任务的开放式多语言大型语言模型

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究提出了一种多任务定制通用大型语言模型的方法,通过在多语言混合单语和平行数据上进行持续预训练,创建了TowerBase,并在与翻译过程相关的指令上进行微调,创建了TowerInstruct。最终模型在与翻译工作流相关的多个任务上超过了开放式替代方案,并与通用封闭式语言模型相媲美。研究者还发布了Tower模型、专业数据集、LLM评估框架以及一系列模型生成版本的基准。

🎯

关键要点

  • 提出了一种多任务定制通用大型语言模型的方法。
  • 通过在多语言混合单语和平行数据上进行持续预训练,创建了TowerBase。
  • 在与翻译过程相关的指令上进行微调,创建了TowerInstruct。
  • 最终模型在与翻译工作流相关的多个任务上超过了开放式替代方案。
  • 最终模型与通用封闭式语言模型相媲美。
  • 发布了Tower模型、专业数据集、LLM评估框架及模型生成版本的基准。
➡️

继续阅读