本研究开发了一种机器翻译模型,将英文医学手册翻译为索拉尼库尔德语,以解决库尔德语医学手册的缺乏问题。通过对319份手册的平行语料库进行评估,翻译的准确性和清晰度得到了积极评价。
通过众包方法从双语网站收集了10,000个URL对,创建了一个包含4.6M个句对的日语-中文平行语料库。使用1.2M条高质量的句对训练了一个平行语料库过滤器,准确度与全球网络挖掘的语料库相当。证实了使用众包进行平行数据的网络挖掘是可行的。
SAMER语料库是第一个针对学龄儿童的阿拉伯语句子简化的手工注释的平行语料库,包括15部公开可获取的阿拉伯小说,总共约159K个单词。该语料库进行了可读性标注,并提供了两个简化版本的平行文本。该语料库可公开获取,支持和鼓励阿拉伯语句子简化、阿拉伯语自动可读性评估和阿拉伯语教育语言技术的研究发展。
KazParC是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库,包含371,902个不同领域的平行句子。研究还开发了一种名为Tilmash的神经机器翻译模型,其性能在某些情况下超过了Google Translate和Yandex Translate。KazParC和Tilmash可在GitHub上下载。
该研究提出了一种新的无监督方法,使用单语数据来获得跨语言句子嵌入,产生合成平行语料库,并使用预训练的跨语言掩码语言模型对其进行微调以得到多语言句子表示。结果表明,该方法可以比基准模型获得高达22个F1点的改进,并且单个合成的双语语料库能够改善其他语言对的结果。
完成下面两步后,将自动完成登录并继续当前操作。