小红花·文摘

本文介绍了超小型语言模型（STLMs）的创新技术，包括字节级分词、参数联系和高效训练策略，使参数减少90%-95%。研究表明，小型模型在准确性和运行时间上优于大型模型，并探讨了预训练效果、模型架构整合及评估方法，以提升语言模型的可访问性和实用性。