InfoQ ·

谷歌DeepMind推出ATLAS多语言模型的扩展规律

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

谷歌DeepMind研究人员推出ATLAS，探讨多语言模型的扩展规律，分析模型规模、训练数据与语言混合的相互作用。基于774次训练，ATLAS明确了跨语言迁移与多语言训练的效率权衡，发现增加语言数量会降低每种语言的性能，但积极的跨语言迁移可部分抵消这一影响。

🎯

关键要点

谷歌DeepMind研究人员推出ATLAS，探讨多语言模型的扩展规律。
ATLAS分析模型规模、训练数据与语言混合的相互作用，基于774次训练。
现有的扩展规律主要基于单一语言训练，ATLAS扩展了这一研究，明确了跨语言迁移与多语言训练的效率权衡。
ATLAS的核心是跨语言迁移矩阵，测量一种语言的训练如何影响另一种语言的性能。
积极的跨语言迁移与共享脚本和语言家族密切相关，某些语言组合表现出互惠效应。
ATLAS量化了“多语言诅咒”，即随着语言数量增加，每种语言的性能下降。
实证结果显示，保持性能的前提下，增加语言数量需要相应增加模型规模和训练数据。
研究还探讨了从头开始预训练多语言模型与微调现有模型的有效性。
对于2B参数模型，预训练和微调的交叉点通常发生在144B到283B个token之间。
ATLAS的发布引发了关于替代模型架构的讨论，提供了探索模块化或专业化多语言设计的量化基础。

❓

延伸问答

ATLAS模型的主要研究内容是什么？

ATLAS模型探讨了多语言模型的扩展规律，分析了模型规模、训练数据与语言混合的相互作用。

ATLAS如何量化多语言模型的性能下降？

ATLAS量化了“多语言诅咒”，即随着语言数量增加，每种语言的性能下降。

ATLAS模型中跨语言迁移的作用是什么？

跨语言迁移矩阵测量一种语言的训练如何影响另一种语言的性能，积极的迁移与共享脚本和语言家族相关。

增加语言数量对模型规模和训练数据的要求是什么？

为了保持性能，增加语言数量需要将模型规模增加约1.18倍，训练数据增加约1.66倍。

在什么情况下预训练多语言模型比微调现有模型更有效？

当训练数据和计算资源超过语言依赖阈值时，预训练变得更有优势。

ATLAS模型的发布引发了哪些讨论？

ATLAS的发布引发了关于替代模型架构的讨论，探索模块化或专业化多语言设计的可能性。

🏷️

继续阅读

为什么Java在大程序里比C++和Rust更快？系统思维取胜
在大规模程序中，Java的性能通常优于C++和Rust。底层语言为了控制和最坏情况表现，牺牲了全局优化能力，导致内存管理和并发处理效率低下。Java通过灵...
这次谷歌相册的更新拯救了你的数字相框
谷歌的Ambient API更新使Aura数字相框用户可以自动更新幻灯片库，用户可直接从谷歌相册添加照片或同步整个相册。现有用户需重新连接相册以保持同步，...
美满电子将为谷歌TPU单元定制开发高效网络芯片并使用英特尔18A制程生产
谷歌与美满电子和英特尔合作，定制网络芯片以提升TPU单元性能。该芯片将由英特尔代工，预计2027年底量产，未来用于新数据中心。同时，谷歌与联发科共同开发T...
谷歌发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行
谷歌发布了Gemma 4 12B多模态模型，支持文本、图片、视频和音频输入，能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构，降低延迟并简化...
谷歌宣布网站/发布商可以主动退出谷歌搜索AI概览不允许AI概览调用内容
谷歌宣布网站可主动退出其搜索的AI概览和AI模式，以保护网站流量和广告收入。退出后不会影响自然搜索流量，目前仅在英国测试，未来将推广至全球。此举是对因AI...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...