小红花·文摘

Google AI 发布 WAXAL：用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

实时互动网 ·

AI 语音数据集如何助力打造自然流畅的语音系统

实时互动网 ·

本研究提出了Paralinguistic Speech Captions（ParaSpeechCaps）数据集，解决了大规模语音数据集风格标签不足的问题。通过结合多种文本与语音嵌入技术，自动扩展了59种风格标签的数据集。微调TTS模型后，语音风格一致性和自然度显著提高，展示了研究的潜在影响。

Scaling Rich Style-Prompted Text-to-Speech Datasets

BriefGPT - AI 论文速递 ·

本研究评估了现有语音数据集在团队协作问题解决中的适用性，填补了机器学习模型开发中的数据缺口，并提出了未来数据集设计的要求，为提高协作问题解决效果提供了理论基础。

现有语音数据集在团队问题解决中训练机器学习模型适用性的概述与讨论

BriefGPT - AI 论文速递 ·

FLEURS是一个包含102种语言的语音数据集，旨在推动多语言自动语音识别和翻译技术的发展。文章探讨了评估指标的鲁棒性及其在图像描述和语音任务中的应用，提出了新方法以提高评估效果，并指出无参考指标的不足。

FLEUR：基于大型多模态模型的图像字幕解释性无参考评估度量

BriefGPT - AI 论文速递 ·

MyVoice是一个收集阿拉伯语言方言的语音数据集的众包平台，允许参与者选择城市/国家级的细粒度方言，并录制显示的话语。该平台整合了质量保证系统，管理员可以添加新数据或任务，并将其显示给贡献者，促进收集多样化和大量的阿拉伯语言数据的协作努力。

VoxArabica: 一个强壮的方言感知阿拉伯语语音识别系统

BriefGPT - AI 论文速递 ·

ADReSS Challenge是一个用于比较自动识别老年痴呆症语音的共享任务，提供了基准的语音数据集和两个认知评估任务。该挑战旨在为语音和语言老年痴呆症研究社区提供一个综合方法比较的平台，为未来的研究和临床应用提供线索。

本文介绍了一种使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型ConvDMM，它使用非线性发射和转移函数模型的高斯状态空间模型。ConvDMM在大规模语音数据集上进行训练，产生的特征在线性电话分类和在WSJ数据集上的识别方面显着优于多个自我监督的特征提取方法，并且可以与其他自我监督的方法相辅相成，进一步提高了结果。在少量标记训练示例的极低资源之下，ConvDMM功能使得学习更好的电话识别器比任何其他功能。

使用随机变分深层核学习的并行和有限数据语音转换

BriefGPT - AI 论文速递 ·

该文章介绍了Expresso数据集，用于无文字语音合成，包括朗读语音和即兴对话。作者通过表达性再合成基准评估了不同自我监督离散编码器的合成质量，并探讨了质量、比特率和对说话人和风格的不变性之间的权衡。所有数据集、评估指标和基线模型均为开源。

EXPRESSO：离散表达性语音重新合成的基准和分析

BriefGPT - AI 论文速递 ·

Google AI 发布 WAXAL：用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

AI 语音数据集如何助力打造自然流畅的语音系统

Scaling Rich Style-Prompted Text-to-Speech Datasets

现有语音数据集在团队问题解决中训练机器学习模型适用性的概述与讨论

FLEUR：基于大型多模态模型的图像字幕解释性无参考评估度量

VoxArabica: 一个强壮的方言感知阿拉伯语语音识别系统

用于阿尔茨海默病检测的转移语音通用和抑郁症特定知识

使用随机变分深层核学习的并行和有限数据语音转换

EXPRESSO：离散表达性语音重新合成的基准和分析