小红花·文摘

云知声 U2-ASR 2.5上线：覆盖七大方言体系，支持100种以上方言及地方口音识别转写

实时互动网 ·

Krisp推出客户口音转换技术，帮助呼叫中心降低客服人员的认知负荷

实时互动网 ·

大型语言模型是否有英语口音？评估和改善多语言大型语言模型的自然性

Apple Machine Learning Research ·

这家公司正在利用AI帮助人们获得美式口音

The Verge ·

拥抱你的声音

DEV Community ·

该研究探讨了大型语言模型（LLMs）的多语言能力及其局限性，分析了不同语言的表现，提出了改进建议，并探讨了未来研究方向。

大型语言模型是否有英语口音？评估和改善多语言LLM的自然性

BriefGPT - AI 论文速递 ·

本文介绍了多种语音合成和转换技术的进展，包括RTI-VAE方法、无监督文本到语音框架、声学表征学习和口音控制方案。这些技术通过改进模型架构和训练策略，显著提升了语音合成的质量和可理解性，尤其在多说话人和多语言环境中表现突出。

DART：多语者文本到语音中的口音和说话者表征的分解

BriefGPT - AI 论文速递 ·

该研究探讨了自动语音识别（ASR）系统在不同口音上的普适性，提出了新学习机制和算法以提高识别准确性。研究表明，跨语言知识转移和无监督文本到语音合成能显著降低错误率。此外，MSR-86K语料库的发布将推动多语言ASR研究的发展。

自动重音标注和俄语文本转录的算法

BriefGPT - AI 论文速递 ·

大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

机器之心 ·

本文首次大规模研究梵语自动语音识别（ASR），发布了78小时的数据集，探讨声学和语言模型单元的影响。研究还涉及印度英语口音的ASR系统，创建了包含12种语言的Shrutilipi数据集，以提升模型准确性。此外，提出了Vistaar基准和Svarah测试数据集，评估印度口音的ASR表现，并发布了支持22种语言的INDICVOICES数据集。所有数据和工具将公开。

LAHAJA：评估印地语自动语音识别系统的多口音基准

BriefGPT - AI 论文速递 ·

本文研究了口音转换技术，采用对抗学习和语音合成方法，旨在保留说话者身份并实现多种口音转换。通过无监督学习和少样本策略，提升了语音识别系统的性能，实验结果表明，合成的带有口音的语音数据有效改善了识别准确率。

转换与发声：最小监督下的零样本口音转换

BriefGPT - AI 论文速递 ·

该研究探讨了自动语音识别（ASR）系统在不同口音上的普适性，提出了无监督学习、微调技术和声学知识等方法以提高识别准确性和鲁棒性。研究表明，合成口音数据和个性化模型训练能显著提升对非标准语音的识别效果，尤其在不同口音情境下表现优异。

聚类和挖掘重音语音以实现包容和公正的语音识别

BriefGPT - AI 论文速递 ·

观看ChatGPT的新语音模式模仿口音和纠正发音

The Verge ·

本文研究了方言对英语语音识别的影响，提出了基于模型对抗元学习的跨方言识别、语音转换技术和多任务学习模型等改进方法。这些方法显著提高了口音识别的准确性和语音合成质量，尤其在低资源区域的应用中表现优异。

基于 GSLM 的外语口音模拟的初步研究

BriefGPT - AI 论文速递 ·

本文介绍了一种支持流式多语言的端到端自动语音识别模型，采用新颖的编码和解码架构，显著降低语音识别误差率，实现低延迟和高质量效果。同时，研究探讨了多语言模型的动态切换能力及方言对发音的影响，提出了有效的跨方言语音识别方法。

Qifusion-Net: 面向端到端的多口音语音识别的层自适应流 / 非流模型

BriefGPT - AI 论文速递 ·

本研究聚焦于低资源非洲语言的语音合成，建立了数据集和TTS系统，发现仅需25分钟的录音即可生成可懂的语音。研究还探讨了种族表示的挑战，并发布了AfriSpeech数据集，以支持非洲语言的语音识别。通过多语言模型和自监督学习，构建了一个能够生成7000种语言语音的TTS系统，旨在帮助语言资源有限的社区。

1000 名非洲人的声音：推进包容性多说话者多口音语音合成

BriefGPT - AI 论文速递 ·

提出了一种利用多级变分自编码器与对抗学习的文本转语音模型，用于解决语音合成和转换中的口音问题，以期构建更具包容性的系统。通过客观评价指标和主观听觉测试对性能进行评估，结果表明与基线相比，口音转换能力有所提高。

利用多层次 VAE 和对抗训练进行的文本转语音口音转化

BriefGPT - AI 论文速递 ·

提出了 AccentFold 方法，通过利用学习到的口音嵌入之间的空间关系来提高自动语音识别（ASR）的性能，特别是在非洲口音的背景下。发现了 100 多种非洲口音之间的空间关系，强调了地理和谱系的相似性以及从语音中学到的一致的语音和形态学规律。通过实证评估，证明了 AccentFold 的有效性，对于未知分布的口音，基于 AccentFold...