本文介绍了博利项目,旨在解决印度语言中口吃语音数据稀缺的问题,构建了多语种口吃语音数据集,包含匿名元数据、问卷回应及朗读、自发言语记录,并详细注释五种口吃类型,为相关研究和技术发展提供了重要资源。
本研究探讨了文本毒性检测系统在特定人群中的偏差,发现语音数据能有效降低偏见,尤其在模糊样本中。强调改善分类器的重要性超过转录流程。
本研究提出了BhasaAnuvaad数据集,涵盖14种印度官方语言,提供超过44,400小时的语音数据,旨在解决自动语音翻译(AST)数据集不足的问题,并评估现有AST系统的缺陷。
我们通过数十万小时的语音数据预训练模型,并在高质量对话数据上进行微调,使模型能够可靠地切换说话者并生成真实音质的音频。
本研究提出了一种单阶段联合语音-文本监督微调方法,旨在解决现有语音语言模型在多轮对话中的微调难题及灾难性遗忘问题。该方法结合不同类型的语音数据,提升了语音基准测试表现,同时保持文本任务性能。
INDICVOICES数据集包含了来自16237名发言人的7348小时的语音数据,涵盖了145个印度地区和22种语言。作者分享了数据收集的标准化协议、工具、问题、提示和对话场景库,以及质量控制机制和转录指南。他们希望这个开源蓝图能成为其他多语言地区数据收集的指南。利用INDICVOICES,他们构建了IndicASR,这是第一个支持印度宪法第八版中列出的22种语言的ASR模型。所有数据、工具、指南、模型和其他资料都将公开提供。
研究人员发布了EARS数据集,包含107位说话者的100小时干净无混响的语音数据,涵盖多种讲话风格,并评估了语音增强和去混响方法。还引入了盲测试集用于自动评估。
印度理工学院马德拉斯分校的 SPRING 实验室和全国语种翻译计划提供了 SPRING-INX 数据,其中包括 2000 小时的合法获取和手动转录的语音数据,用于搭建 ASR 系统。本文介绍了数据收集和数据清洗的过程,并提供了数据统计。
本研究探讨了不同形式的Barlow Twins(BT)目标函数对语音数据下游任务性能的影响。提出了带有归一化潜变量的Modified Barlow Twins(MBT)以实现尺度不变性,并在说话人识别、性别识别和关键词检测任务中进行了评估。结果表明MBT相对于原始BT提高了表示泛化能力,尤其是在目标数据有限的微调过程中。这强调了设计鼓励不变性和可转移表示的目标函数的重要性。研究揭示了如何定制BT学习目标以产生适应新的下游任务的语音表示,是发展可重复使用的自监督语音表示的重要一步。
完成下面两步后,将自动完成登录并继续当前操作。