BriefGPT - AI 论文速递 ·

KazParC: 机器翻译用的哈萨克平行语料库

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

本文介绍了多个平行语料库的构建与应用，如波斯语-英语、英日、车臣语-俄语，强调其在机器翻译中的重要性和效果。研究表明，这些语料库能显著提高翻译质量和效率。

🎯

关键要点

构建了最大波斯语-英语平行语料库，包含超过一百万句子对，实验表明其能提高机器翻译系统的效果。
介绍了新的英日平行语料库JParaCrawl v3.0，包含超过2100万个平行句对，能提高机器翻译模型的准确性。
使用双向方法从维基百科提取平行句子，结果显示该方法优于单向方法，提取的语料库包含约200,000个句子。
通过神经机器翻译系统生成跨17种语言的平行释义语料库，结果表明生成的句子在语义和词汇丰富度上表现良好。
介绍了车臣语-俄语和富拉语-英语的实验性平行数据，提供了一种成本效益高的众包收集方法。
构建了日英商务会话平行语料库，旨在提高会话文本的机器翻译质量，并展示了基于该语料库训练的系统的优势。
提出了ParaPhraser Plus数据集，旨在解决俄语释义生成领域小规模语料库的问题。
展示了一种利用公开课程资料进行平行语料挖掘的框架，达到了96%的句子对齐F1分数，能提高课程讲稿翻译质量。

❓

延伸问答

波斯语-英语平行语料库的规模和效果如何？

波斯语-英语平行语料库包含超过一百万句子对，实验表明其能显著提高机器翻译系统的效果。

JParaCrawl v3.0平行语料库的特点是什么？

JParaCrawl v3.0包含超过2100万个平行句对，能提高机器翻译模型的准确性，并将在未来公开发布。

双向方法提取平行句子的优势是什么？

双向方法优于单向方法，能更有效地提取平行句子，提取的语料库包含约200,000个句子。

如何通过众包收集平行语料库？

通过众包的方法收集平行语料库虽然牺牲了质量，但比雇佣专业翻译人员更具成本效益。

日英商务会话平行语料库的目的是什么？

日英商务会话平行语料库旨在提高会话文本的机器翻译质量，并展示基于该语料库训练的系统的优势。

ParaPhraser Plus数据集的作用是什么？

ParaPhraser Plus数据集旨在解决俄语释义生成领域小规模语料库的问题，促进文本生成的应用。

🏷️

标签

平行语料库机器翻译翻译效率翻译质量语料库语言对

➡️

继续阅读

移远通信第九座研发中心在巴西马瑙斯启用
(全球TMT 2026年07月15日讯)近日，移远通信全球化布局再添新坐标，其第九座研发中心在巴西马瑙斯正式落 […]
帷幄正式宣布完成4000万美元C3轮融资
(全球TMT 2026年07月15日讯)2026年7月15日，全球化企业级AI厂商帷幄正式宣布完成4000万美 […]
HCLTech第一季度创下24亿美元的历史最高季度新增预订量
（全球TMT 2026年07月15日讯）HCLTech公布截至2026年6月30日的第一季度财务业绩。美元营收 […]
安全公司曝光Cursor AI编码助手安全漏洞通报超过7个月未修复只能选择公开曝光
#安全资讯又是草台班子：安全公司公开曝光 SpaceX Cursor AI 编码助手安全漏洞，通报漏洞 7 个月始终无人回应且漏洞没有修复。该漏洞非常简...
早鸟票倒计时！AI编译器技术沙龙北京站来了
如何在芯片算力见顶的当下继续榨取性能，成为大模型基础设施的关键命题。旨在通过提供行业资讯报道、数据集加速下载、在线教程演示、热门模型性能评测、前沿论文推荐...
Mac技巧之在苹果电脑上让你复制带格式的文字后粘贴出来的是无格式纯文本：Pure Paste
这应该是个困扰很多人的问题：去掉剪切板里文字所带的格式。我看到有些人会复制文字后打开一个文本编辑器，重新粘贴后复制一遍；有些人会把复制的文字贴到浏览器地址...