多语言聊天数据集:Tagengo
原文中文,约300字,阅读约需1分钟。发表于: 。我们提供了一个高质量的数据集,包含 74 种语言中的超过 70k 个提示 - 回应对,用于训练最先进的开源英语语言模型,以实现多语言对话。在 6 种语言的 MT-Bench 对话基准测试中,我们的多语言模型优于先前的开源语言模型。此外,我们发现在更多多语言数据上进行训练有助于比仅仅在特定语言的数据上进行训练(如日语),从而提高性能。这些结果表明,在大量高质量多语言数据的训练下,实现更易用的语言模型变得必要。
我们提供了一个高质量的数据集,包含74种语言中的超过70k个提示-回应对,用于训练最先进的开源英语语言模型,以实现多语言对话。在6种语言的MT-Bench对话基准测试中,我们的多语言模型优于先前的开源语言模型。此外,我们发现在更多多语言数据上进行训练有助于提高性能。这些结果表明,在大量高质量多语言数据的训练下,实现更易用的语言模型变得必要。