本研究针对吉尔吉斯语句法语料库开发的难题,提出了一种简化方法,开发了基于树库翻译的句法注释迁移工具。研究结果表明,该工具的准确性优于单语训练模型,为优化注释过程提供了新的评估方法。
本研究聚焦于吉尔吉斯语这一低资源语言在自然语言处理领域的现状,指出了人类评估和本地人创建的数据集在提高可靠性方面的重要性。尽管取得了一些进展,但仍需大量社区驱动的努力来建立资源,确保该语言的可持续发展。文章提出了未来研究主题和语言资源的路线图,以应对当前面临的主要挑战。
本文介绍了一个新的公共基准,用于针对柯尔克孜语进行主题分类。作者使用来自24.KG新闻网站的数据集进行训练和评估,并提出了多标记设置下的几个基准模型。文章讨论了结果和未来工作的方向。
完成下面两步后,将自动完成登录并继续当前操作。