BriefGPT - AI 论文速递 ·

不使用并行语音数据，是否能实现高质量的直接语音到语音翻译？

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了一种基于不对称数据的语音到语音翻译模型Speech2S，该模型通过双语文本数据训练，显著提升了翻译效果。研究还探讨了无监督和弱监督方法，增强了多语言翻译性能，尤其在低资源语言上表现突出。此外，模型利用自监督技术，在无文本情况下实现有效的语音翻译，解决了数据稀缺问题。

🎯

关键要点

提出了一种基于不对称数据的语音到语音模型Speech2S，利用双语文本数据训练，显著提升翻译效果。
通过多任务框架优化不同TTS系统的多个目标，在Fisher西班牙语-英语数据集上实现了2.8 BLEU的改善。
采用无监督和弱监督方法，提升基于Translatotron 2的直接语音到语音翻译系统性能，在21种语言对上BLEU值提高13.6，低资源语言提升更显著。
提出无需文本数据的无文本语音到语音翻译系统，使用自监督技术优化多说话者语音模型，在VoxPopuli S2ST数据集上实现3.2 BLEU分数的增益。
讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索自监督预训练和数据增强技术以提高模型性能。
提出基于自动发现独立单元的无监督语音到语音翻译系统，避免使用自动语音识别和文本转语音模型，实验结果表明该方法可行。
通过声学效果生成合成数据，利用未标记文本，改进翻译质量，在西班牙语-英语和俄语-英语翻译中提高了2个BLEU，尤其在极低资源情况下表现显著。
提出基于自监督模型的离散单元和神经编解码器的S2ST框架，用于样式转换，克服数据稀缺问题，生成的翻译语音在高保真度和样式相似性上表现出色。

❓

延伸问答

Speech2S模型是如何提升语音翻译效果的？

Speech2S模型通过利用双语文本数据进行训练，显著提升了跨语言语音转换的效果。

无监督和弱监督方法在语音翻译中有什么作用？

无监督和弱监督方法提升了基于Translatotron 2的直接语音到语音翻译系统的性能，特别是在低资源语言上表现显著。

如何在没有文本数据的情况下实现语音翻译？

可以通过自监督技术构建无文本语音到语音翻译系统，仅使用少量语音数据进行训练。

直接语音到语音翻译模型面临哪些挑战？

直接语音到语音翻译模型面临的数据稀缺性问题是主要挑战，研究者探索自监督预训练和数据增强技术来解决此问题。

在低资源语言翻译中，模型的表现如何？

在低资源语言翻译中，模型的BLEU值提升显著，达到398%的相对增长。

自监督模型在语音翻译中的应用效果如何？

自监督模型在语音翻译中能够提高模型性能，并在样式转换上表现出色，生成的翻译语音具有高保真度和样式相似性。

🏷️

标签

不对称数据双语文本无监督方法自监督技术语音翻译

➡️

继续阅读

XMOS推出搭载先进AI语音处理的VocalFusion XVF3620
XMOS 发布了新一代语音处理器 VocalFusion XVF3620，它将 AI 降噪技术与完整的片上语音处理流程相结合，即使在嘈杂、混响和动态环境中...
数据显示：世界杯直播观看量比2022年增长473%
Everyone TV 公布的 Barb 收视数据显示，通过宽带观看 2026 年 FIFA 世界杯的人数显著增加，凸显了英国持续向互联网电视转型。 Ba...
涛思数据TDengine升级为AI原生工业数据平台
（全球TMT 2026年07月22日讯）涛思数据宣布TDengine产品重大升级，从高性能时序数据库正式演进为 […]
澳鹏数据已连续八届深度参与世界人工智能大会
(全球TMT 2026年07月21日讯)2026年7月17日至20日，2026世界人工智能大会暨人工智能全球治 […]
瀚高股份携新一代智能数据基座平台HigoBase参展WAIC 2026
(全球TMT 2026年07月21日讯)7月17日至20日，第八届世界人工智能大会（WAIC 2026）在上海 […]
AI-DLC 在数据工程中的实践：从分层建模到数据质量的全流程协作
本文将介绍 AI-DLC（AI-Driven Development Life Cycle）——亚马逊云科技于 2025 年提出的一套开发方法论——在数据...