本研究评估了斯堪的纳维亚地区临床自然语言处理(NLP)方法的不足,指出瑞典语研究进展显著,而挪威和丹麦的相关研究较少,特别是在去标识化等关键任务上。资源共享和迁移学习的低水平被认为是该领域发展的障碍。
本研究通过SWEb数据集解决了斯堪的纳维亚语言预训练数据不足的问题。使用新型文本提取器简化处理,并推出新的填空式基准评估方法,结果与FineWeb数据集上的模型表现相当。
完成下面两步后,将自动完成登录并继续当前操作。