Apple Machine Learning Research ·

超越文本压缩：跨规模评估分词器

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

分词器设计对语言模型性能影响显著，但评估其质量仍具挑战性。研究表明，分词器在小模型上的评估无法可靠预测其在大模型上的表现。实验发现，分词器选择对英语任务影响较小，但在机器翻译中差异显著。为此，提出了与下游性能更相关的内在指标，并构建了评估框架以实现更可靠的分词器比较。

🎯

🔎

分词器的设计对语言模型的性能至关重要，但评估其质量却面临诸多挑战。尤其是在小模型上进行的评估，往往无法准确预测其在大模型上的表现。这一发现提醒研究者在选择分词器时，需考虑模型规模的影响，以避免误导性的结果。

研究表明，分词器的选择在机器翻译任务中具有显著影响，而在英语任务中影响较小。这提示开发者在进行机器翻译时，需更加重视分词器的选择，以优化翻译质量，尤其是在处理复杂语言对时。

文章中提出的新内在指标与下游性能的相关性更强，表明传统的文本压缩指标可能不足以全面评估分词器的质量。这一新框架为研究者提供了更可靠的工具，以进行分词器的比较和选择，推动语言模型的进一步优化。

❓

分词器设计显著影响语言模型的性能，尤其在机器翻译任务中差异明显。

评估分词器质量的挑战在于，使用小模型的评估无法可靠预测其在大模型上的表现。

文本压缩的可靠性受到质疑，研究表明它并不能有效预测分词器的质量。

分词器选择对英语任务的影响较小，但在机器翻译中影响显著。

研究提出了与下游性能更相关的内在指标，以提高评估的可靠性。

通过结合新的内在指标，构建了一个评估框架，以实现更可靠的分词器比较。

🏷️