作者分享了与口吃斗争的经历,强调与AI互动如何减轻表达焦虑。通过AI的支持,他逐步克服沟通障碍,提升表达能力,最终实现自信交流。
本文介绍了博利项目,旨在解决印度语言中口吃语音数据稀缺的问题,构建了多语种口吃语音数据集,包含匿名元数据、问卷回应及朗读、自发言语记录,并详细注释五种口吃类型,为相关研究和技术发展提供了重要资源。
本研究提出了一种利用音频和视频数据进行故障检测的多模态方法,通过融合技术和模态不可知编码器,实现了时态和语义上下文的学习。实验结果表明,该方法在故障检测任务中优于仅使用音频的方法。
本文提出了一种基于LSTM的多任务模型,用于增量检测口吃结构。该模型在Switchboard对话行为语料库上训练,并在SWDA上表现优异。同时,在bAbI+数据集上评估结果显示该模型具有很好的泛化潜力。
本研究使用wav2vec 2.0模型对发音困难症声学语音信号进行自动检测和严重程度分类,结果表明使用wav2vec模型的嵌入特征在准确度和严重程度分类任务中均有提升。
本文通过多阶段增强方法改进阿拉伯语言障碍患者的自动语音识别性能。方法包括生成阿拉伯语言障碍患者的语音,通过对英语语言障碍患者语音数据进行训练进行多语言扩充,以及在不同的语音障碍程度下进行微调和文本纠正策略。实验结果显示,在阿拉伯语言障碍患者的语音数据集上,词错误率为18%,字符错误率为17.2%。相比只针对健康数据训练的基础模型,实现了81.8%的词错误率提升,并在真实的英文语言障碍患者语音数据集上实现了124%的词错误率提升。
完成下面两步后,将自动完成登录并继续当前操作。