本研究针对挪威语缺乏问答数据集的问题,提出了一系列新的问答数据集,包括NorOpenBookQA、NorCommonSenseQA、NorTruthfulQA和NRK-Quiz-QA,这些数据集覆盖了广泛的技能和知识领域。研究表明,大多数语言模型在挪威书写标准Bokmål上表现优于Nynorsk,并且在常识推理方面存在显著不足,同时在生成答案时常常不够准确。
本文研究了语言转移下更新语言模型的利与弊。通过添加挪威语和冰岛语等数据到英语语言模型中,研究了模型规模和学习率计划者的影响。发现前向传递对语言顺序无关,后向传递则取决于新语言的顺序和特点。探索了语言相似性度量,发现句法相似性与结果相关性最好。
完成下面两步后,将自动完成登录并继续当前操作。