小红花·文摘

本文介绍了博利项目，旨在解决印度语言中口吃语音数据稀缺的问题，构建了多语种口吃语音数据集，包含匿名元数据、问卷回应及朗读、自发言语记录，并详细注释五种口吃类型，为相关研究和技术发展提供了重要资源。

Boli: Understanding Stuttering Experiences and Analyzing Stuttering Speech Dataset

BriefGPT - AI 论文速递 ·

本研究探讨了文本毒性检测系统在特定人群中的偏差，发现语音数据能有效降低偏见，尤其在模糊样本中。强调改善分类器的重要性超过转录流程。

语音数据在降低毒性检测偏差中的作用

BriefGPT - AI 论文速递 ·

本研究提出了BhasaAnuvaad数据集，涵盖14种印度官方语言，提供超过44,400小时的语音数据，旨在解决自动语音翻译（AST）数据集不足的问题，并评估现有AST系统的缺陷。

巴哈萨阿努瓦德：一个包含14种印度语言的语音翻译数据集

BriefGPT - AI 论文速递 ·

我们通过数十万小时的语音数据预训练模型，并在高质量对话数据上进行微调，使模型能够可靠地切换说话者并生成真实音质的音频。

推动音频生成的前沿

Google DeepMind Blog ·

本研究提出了一种单阶段联合语音-文本监督微调方法，旨在解决现有语音语言模型在多轮对话中的微调难题及灾难性遗忘问题。该方法结合不同类型的语音数据，提升了语音基准测试表现，同时保持文本任务性能。

VoiceTextBlender: Enhancing Speech Capabilities of Large Language Models via Single-Stage Joint Speech-Text Supervised Fine-Tuning

BriefGPT - AI 论文速递 ·

印度理工学院马德拉斯分校的 SPRING 实验室和全国语种翻译计划提供了 SPRING-INX 数据，其中包括 2000 小时的合法获取和手动转录的语音数据，用于搭建 ASR 系统。本文介绍了数据收集和数据清洗的过程，并提供了数据统计。

SPRING-INX: 由印度马德拉斯理工学院 SPRING Lab 创建的多语言印度语音语料库

BriefGPT - AI 论文速递 ·

本研究探讨了不同形式的Barlow Twins（BT）目标函数对语音数据下游任务性能的影响。提出了带有归一化潜变量的Modified Barlow Twins（MBT）以实现尺度不变性，并在说话人识别、性别识别和关键词检测任务中进行了评估。结果表明MBT相对于原始BT提高了表示泛化能力，尤其是在目标数据有限的微调过程中。这强调了设计鼓励不变性和可转移表示的目标函数的重要性。研究揭示了如何定制BT学习目标以产生适应新的下游任务的语音表示，是发展可重复使用的自监督语音表示的重要一步。

通过不变性和冗余减少理解语音表示的自监督学习

BriefGPT - AI 论文速递 ·