小红花·文摘

DeepL进军硅谷，收购Mixhalo团队和技术，加速大规模语音AI的部署

实时互动网 ·

谷歌于6月17日向Pixel设备推送Android 17正式版，新增AI功能，包括音乐生成模型Lyria 3和语音翻译工具。此外，更新还引入气泡任务栏、同屏录摄功能及家长管控优化，提升用户体验。

派早报：Android 17 正式推送、微软发布 Surface 新品等

少数派 ·

Krisp发布语音翻译v3，向开发者开放企业级翻译功能

实时互动网 ·

Google 发布 Gemini 3.5 Live Translate：一款支持 70 多种语言的流式语音翻译音频模型

实时互动网 ·

谷歌推出Gemini 3.5 Live Translate，支持70多种语言的实时语音翻译，自动检测语言并生成自然流畅的翻译语音，适用于会议和通话。该功能在Google Meet和Google Translate应用中逐步推出，提升翻译质量和速度，支持多语言对话，并新增“听模式”，用户可通过手机直接听到翻译内容。

使用Gemini 3.5 Live Translate实现流畅自然的语音翻译

Google DeepMind Blog ·

谷歌推出Gemini 3.5实时翻译模型，支持70多种语言的语音实时翻译，自动检测语言并生成自然流畅的翻译语音，适用于会议和通话。用户可通过Google Meet和Google Translate应用体验这一新功能，提升多语言沟通效率。

流畅自然的语音翻译：Gemini 3.5实时翻译

The Keyword ·

迈向机器翻译：来自人类翻译研究的启示

Apple Machine Learning Research ·

DeepL 更新 DeepL Voice，扩展了语言支持并提高了会议效率

实时互动网 ·

谷歌Workspace推出新功能，包括Gmail的个性化智能回复，能够根据用户语气和上下文生成回复；Google Meet提供近实时低延迟语音翻译，支持多语言自然对话；Google Vids现已向订阅用户开放。

了解谷歌Workspace与Gemini的新功能如何在工作和家庭中帮助您。

The Keyword ·

谷歌Meet可以将您的话翻译成其他语言

The Verge ·

本研究提出了一种创新方法，利用大型语言模型提升国际口语翻译研讨会(IWSLT)中的语音翻译与指令跟随任务的性能。通过融合多个自动语音识别系统的输出，采用两步翻译和文档级精炼，显著提高了翻译质量。

KIT's Offline Speech Translation and Instruction Following Submission: IWSLT 2025

BriefGPT - AI 论文速递 ·

本研究提出了Soundwave，一种高效的训练策略和新架构，旨在解决语音大型语言模型在语音与文本之间的表示空间差距和序列长度不一致的问题。Soundwave在语音翻译和AIR-Bench任务中表现优异，仅使用五十分之一的训练数据，仍能保持智能对话的表现。

Soundwave: Less is More for Speech-Text Alignment in Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了2024年12月至2025年1月的首次语音翻译指导（SpeechT），旨在填补该领域的指导空白。研究团队提出了一种系统化的方法，以提升语音翻译效果，为未来研究提供参考。

语音翻译中的首次指导成果：SpeechT

BriefGPT - AI 论文速递 ·

本研究探讨了传统级联语音翻译模型的局限性，并介绍了Google的Translatotron模型。该模型通过直接进行语音到语音的翻译，提高了翻译效率，减少了错误，尤其在弥合非洲语言与其他正式语言的障碍方面表现优异，具有重要的应用前景。

Speech to Speech Translation with Translatotron: A State of the Art Review

BriefGPT - AI 论文速递 ·

本研究提出了一种基于条件计算的特征融合框架，解决了自监督学习特征与传统频谱特征之间的冲突。该框架结合了门控网络和断开策略，提升了模型的鲁棒性和收敛速度。在MUSTC数据集上的语音翻译任务中，我们的方法与频谱模型表现相当。

Optimizing Speech Multi-View Feature Fusion through Conditional Computation

BriefGPT - AI 论文速递 ·

本研究提出了一种利用多语言大型语言模型来解决零资源语音翻译和自动语音识别的挑战。通过结合预训练的语音编码器和轻量适配模块，系统在CoVoST2数据集上实现了超过23的BLEU分数和28.2%的错误率。

零资源语音翻译与识别的语言模型

BriefGPT - AI 论文速递 ·

语言不仅仅是文字：语音转文本翻译系统是否利用韵律？

Apple Machine Learning Research ·

本文研究了在低资源环境下提高自动语音识别（ASR）和语音翻译性能的方法。通过预训练声学模型和结合文本到语音（TTS）技术，利用少量数据实现了显著的性能提升。同时，探讨了文本多样性和合成数据对ASR性能的影响，并提出了有效的模型优化策略。

STTATTS：统一语音转文本和文本转语音模型

BriefGPT - AI 论文速递 ·

本文研究了在低资源环境下提高自动语音识别（ASR）和语音翻译性能的方法。通过多语言训练和预训练声学模型，显著提升了识别精度，尤其是对低资源语言。同时探讨了知识蒸馏和自监督学习等技术，以优化模型并降低训练数据需求。

面向低资源自动语音识别的多语言多模态模型的参数高效适应

BriefGPT - AI 论文速递 ·

本文探讨了利用LibriSpeech构建多语言平行语料库的方法，适用于语音翻译和口语实验。同时，研究提出了基于大型语言模型的TransAgents框架，以提升文学翻译质量，并通过创新评估策略验证其有效性。

多语种数字版文学作品的自动翻译对齐管道

BriefGPT - AI 论文速递 ·