在电路与乔姆斯基之间:对形式语言的预预训练赋予语言偏见

📝

内容提要

本研究解决了语言模型在自然语言获取中存在的正式语言预训练效果不清晰的问题。通过结合语言学和复杂性理论的见解,提出了有效转移的假设,即正式语言能同时捕捉自然语言中的依赖结构并符合模型架构的计算限制。研究发现,形式语言的预预训练能显著降低模型在自然语言上的损失,并提高语言模型的语言泛化能力,尤其在模型规模较小的情况下,效果更为显著。

🏷️

标签

➡️

继续阅读