KazParC是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库,包含371,902个不同领域的平行句子。研究还开发了一种名为Tilmash的神经机器翻译模型,其性能在某些情况下超过了Google Translate和Yandex Translate。KazParC和Tilmash可在GitHub上下载。
该研究介绍了KazSAnDRA数据集,包含180,064份哈萨克评论,通过四个机器学习模型实现了情感分类自动化。最佳模型在测试集上实现了0.81的极性分类F1得分和0.39的评分分类得分。数据集和模型可通过GitHub下载。
该代码可将中国市一级行政单位名称缩短,去掉后缀,例如将“黔南布依族苗族自治州”缩短为“黔南”。但需注意蒙古、柯尔克孜和哈萨克等名称后面没有“族”字。
完成下面两步后,将自动完成登录并继续当前操作。