本研究探讨了文档级翻译评估的关键问题,强调了自动评估指标的重要性,并提出了未来的发展方向,包括用户友好的评估方法和机器翻译评估的训练模型。
本文分析了传统指标(如BLEU、TER)与神经方法(如BERTScore、COMET)在日英聊天翻译中的表现。研究表明,所有指标在模型排名上表现一致,但神经指标与人类评分的相关性更高,尤其是COMET。然而,在评估含有零代词的日语句子翻译时,最佳指标仍存在困难。
本文探讨了大型语言模型(LLMs)在多语言机器翻译中的能力,尤其是在低资源语言的表现。研究表明,参考信息能显著提高翻译评估的准确性,而源语言信息有时会产生负面影响。此外,提出了基于GPT的翻译质量评估指标GEMBA,显示出在多语言评估中的优越性能,为提升LLMs在翻译任务中的应用提供了新思路。
本文探讨了大型语言模型(LLMs)在文本写作、翻译评估和引用分析中的应用。研究表明,细粒度奖励显著提升模型性能,尤其在生成相关引用和提高评估准确性方面。同时,提出混合自监督与监督目标的策略,以增强模型的上下文学习能力。这些研究为优化跨语言问答系统和改进机器翻译提供了新方向。
完成下面两步后,将自动完成登录并继续当前操作。