Apple Machine Learning Research ·

基于聚类重要性采样的任务自适应预训练语言模型

💡 原文英文，约300词，阅读约需2分钟。

📝

内容提要

本文探讨了如何通过调整通用语言模型的训练分布，利用有限的领域特定数据构建专业模型。采用聚类重要性采样方法，从通用数据集中根据领域数据的频率进行采样，以提高语言建模的准确性。此外，文章介绍了如何通过地理位置知识改善Siri对本地兴趣点名称的识别能力，提出了基于地理位置的语言模型。

🎯

🔎

专业语言模型在特定任务上通常优于通用模型，尤其是在数据量有限的情况下。通过聚类重要性采样方法，研究者能够有效利用通用数据集，提升模型的准确性。这种方法的可扩展性使其适用于多种任务，值得关注。

将用户的地理位置知识融入语言模型中，可以显著改善语音识别系统的表现。以Siri为例，基于地理位置的语言模型能够更准确地识别本地兴趣点名称，这对于提升用户体验至关重要。

聚类重要性采样方法通过根据领域数据的频率从通用数据集中进行采样，能够有效调整训练分布。这一方法在多任务设置中表现良好，适合于预训练和继续预训练，具有广泛的应用潜力。

❓

专业语言模型专注于特定任务或领域，通常在同等规模下优于通用语言模型。

通过调整通用数据的训练分布，利用有限的领域特定数据指导采样过程。

聚类重要性采样方法可扩展，适用于预训练和继续预训练，并在多任务设置中表现良好。

研究结果表明，在语言建模的困惑度和多项选择题任务的准确性方面，各领域均有改善。

通过将用户的地理位置知识纳入语音识别系统，改善了Siri对本地兴趣点名称的识别能力。

Geo-LMs使Siri能够更好地估计用户的意图词序，结合用户的地理位置信息。

🏷️