标签

 机器翻译 

相关的文章:

探索机器翻译中的性别偏见与挑战,从处理低资源语言到应对大型语言模型时代的问题。

BriefGPT - AI 论文速递 -

UMBCLU 在 SemEval-2024 Task 1A 和 1C 的文本语义相关性研究:使用和不使用机器翻译

使用大型语言模型,开发了针对非洲和亚洲语言的语义文本相关性模型 TranSem,并在 SemEval-2024 任务 1 中取得了不错的成绩。

查理斯大学提出了MRL~2023多语言多任务信息检索系统,旨在为多个语言开发命名实体识别和问题回答系统。他们使用翻译-测试方法解决了两个子任务,并提出了一种基于标签敏感翻译模型评分候选位置的方法。然而,由于领域不匹配,微调模型无法超越基准线。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

SiLLM:大型语言模型用于同步机器翻译

同时机器翻译 (SiMT) 使用一个策略来确定最佳的阅读和生成单词的时机。我们提出了 SiLLM,将 SiMT 任务分解为策略决策和翻译子任务,并引入了大型语言模型 (LLM)。两个代理协作完成 SiMT,最终实现了最新技术水平的性能表现。

本研究提出了一种多模式方法来同时机器翻译,使用自适应策略平衡翻译质量和延迟,并通过集成视觉和文本信息来支持该过程。研究发现,视觉线索可以在保持延迟低的同时提高翻译质量。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

大型语言模型 “ad referendum”: 在法律领域的机器翻译水平如何?

这项研究评估了两个最先进的大型语言模型(LLMs)与传统神经机器翻译(NMT)系统在法律领域的四种语言对中的机器翻译(MT)质量,结合自动评估度量标准(AEMs)和专业翻译员的人工评估(HE)来评估翻译的排序、流畅性和足够性。结果表明,虽然谷歌翻译在 AEMs 中的表现通常优于 LLMs,但人工评估员认为 LLMs,特别是 GPT-4,在产生上下文足够且流畅的翻译方面略优或相当。这种差异表明 LLMs 在处理专业法律术语和背景方面具有潜力,并突出了人工评估方法在评估 MT 质量方面的重要性。本研究强调了 LLMs 在专业领域的不断进化能力,并呼吁对传统的 AEMs 进行重新评估,以更好地捕捉 LLM 生成的翻译的细微差别。

研究评估了两个大型语言模型与传统神经机器翻译系统在法律领域的机器翻译质量,结果显示语言模型略优。研究强调了语言模型在专业领域的进化能力,并呼吁重新评估评估方法以更好捕捉翻译的细微差别。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

上下文感知机器翻译的序列缩短

在此研究中,我们展示了一种特殊情况的多编码器架构,其中源句子的潜在表示被缓存并在下一步中被重复使用作为上下文,这在对比数据集上实现了更高的准确度,并且与单编码器和多编码器方法相比具有相可比的 BLEU 和 COMET 分数。此外,我们还研究了将序列缩短应用于缓存表示的方法,我们测试了三种基于汇聚的缩短技术,并引入了两种新方法 - 潜在分组和潜在选择,其中网络学习将标记分组或选择为上下文进行缓存。我们的实验结果表明,这两种方法在对比数据集上达到了与其他测试方法相当的 BLEU 和 COMET 分数和准确度,同时可能具有更高的可解释性,并在上下文大小增加时减少了内存需求的增长。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

测量文档级机器翻译系统中的语境利用

文件级别的翻译模型通常使用一般性指标(如 BLEU)进行评估,而这些指标对于上下文的益处并不具有信息量。我们的研究提出了补充基于准确性评估的上下文利用度量的方法,并且通过扰动分析发现这是一种有效的全局上下文利用度量。此外,我们还提出了一种细粒度的现象特定评估方法,用于衡量对处理上下文相关的话语现象的支持上下文的贡献。我们的研究结果表明自动注释的支持上下文与人工注释的上下文给出了类似的结论,并可以作为人工注释不可用的情况下的替代方法。最后,我们强调了在评估上下文利用度时使用话语丰富的数据集的重要性。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

词汇重要性对机器翻译模型盗用的影响

通过收集输出,攻击者可以提取受害者的词汇表,而词汇本身对本地模型的性能影响不大。这对于黑盒知识蒸馏来说具有重要意义。

本文提出了解决神经机器翻译模型中大词汇表问题的方法,通过选择小目标词汇表并基于翻译模型或短语库实现。实验证明,该方法在英法翻译任务中的BLEU分数比使用大词汇表的系统高1个点。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

机器翻译元评估通过翻译准确度挑战集

介绍了一个跨越 146 种语言对的对比挑战集 ACES,以发现度量标准是否能够识别 68 种翻译准确性错误,并通过对 WMT 2022 和 2023 度量标准共享任务中的 50 个度量标准进行基准测试,评估其渐进性能和对各种语言现象的敏感性。结果显示,不同的度量标准家族在不同的现象上存在困难,并且基于大型语言模型的方法的可靠性表现不佳。扩展了 ACES 以包括错误跨度注释,称为 SPAN-ACES,并使用该数据集评估基于跨度的错误度量,结果表明这些度量标准还需要较大改进。最后,提供了构建更好的机器翻译度量标准的一些建议,包括专注于错误标签而非分数,融合多个度量标准,设计明确专注于源句的策略,专注于语义内容,并选择适合的基本模型来进行表示。

该文章介绍了一个名为ACES的对比挑战集,用于评估翻译准确性的度量标准。通过对50个度量标准进行测试,发现不同的度量标准在不同的语言现象上存在困难。基于大型语言模型的方法表现不佳。扩展了ACES以包括错误跨度注释,称为SPAN-ACES,并发现跨度错误度量标准仍需改进。提供了构建更好的机器翻译度量标准的建议。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

非流利的合成目标语言数据提高神经机器翻译

从有限的平行语料中生成合成训练样本,即非流利目标端句子能够在多语种机器翻译框架中有效地提高翻译性能,并且这种方法对原始训练语料的规模不敏感,从而使系统更鲁棒、产生更少的幻觉。

本研究比较了几种生成合成源句子的方法,发现采样或噪声束搜索的反向翻译效果最佳。同时,将该方法扩展到数亿条单语数据,取得了35 BLEU的最新记录。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

理解对资源有限的神经机器翻译中的词级语言标注的影响

研究了词级语言标注对资源不足的神经机器翻译的影响,通过实验发现,当在源语言进行标注时,语法 - 语义描述标签在某些语言对中表现优于词性标签;但在目标语言进行标注时,词性标签在自动评估指标上始终优于语法 - 语义描述标签,尽管后者可改善输出的语法性。该研究提供了对此结果的详细分析。

本研究使用Transformer模型和大型语料库提高句法知识表征,通过多任务学习进行数据操纵或使用专用模型组件。结果显示,采用线性树而不是真实依赖的增益并非来自语言知识增加,而是由于自注意矩阵上的简单正则化效应。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

处理低资源语言时的机器翻译误称性别与假设性别

本章节主要关注低资源语言背景下机器翻译中与性别相关的错误。通过对本土语言孟加拉语作为低资源语言的案例研究,阐述了当源文本中没有提供性别信息时,在与高资源英语之间的翻译中如何推测和假设性别,并讨论了这种错误导致的后殖民主义和社会影响,最后讨论了提高语言代表性的潜在解决方案。

本章研究了机器翻译在持续性别偏见方面的作用,强调了跨语言环境和统计依赖性带来的挑战。通过实验评估了ChatGPT解决性别偏见的能力,结果强调了减少偏见的需求,并强调了培养公平和包容的重要性。

相关推荐 去reddit讨论

热榜 Top10

...
Dify.AI
...
观测云
...
LigaAI
...
白鲸技术栈
...
ShowMeBug
...
eolink
...
天勤数据

推荐或自荐