小红花·文摘

本研究提出了一种基于音段语音声学特征的深伪音频检测方法。这些特征与人类发音过程密切相关，难以被深伪模型复制。研究结果表明，某些音段特征在识别深伪音频方面表现优异，为法医学音频检测提供了新思路。

Forensic Deepfake Audio Detection Based on Segmental Speech Features

BriefGPT - AI 论文速递 ·

本研究提出了一种基于最佳运输的图匹配方法（GM-OT），旨在解决从预训练语言模型向声学特征学习转移语言知识时的对齐挑战。该方法通过将语言和声学序列建模为结构化图，提升了知识迁移效率，显著提高了自动语音识别模型的性能。

Cross-modal Knowledge Transfer Learning for Automatic Speech Recognition Based on Optimal Transport Graph Matching

BriefGPT - AI 论文速递 ·

本研究探讨了语音转换中的关键问题，即如何有效地将一个说话者的声学特征转换为另一个，同时保持语言内容的完整性。文章整合了生成对抗网络在语音转换中的应用，评估了当前技术挑战及潜在解决方向，以推动更高质量的语音合成技术发展。

基于生成对抗网络的语音转换：技术、挑战与最新进展

BriefGPT - AI 论文速递 ·

探索语音基础模型掩码预训练中的预测目标

Apple Machine Learning Research ·

本研究探讨了乐器音色形容词与声学特征之间的矛盾，构建了数据集并通过音频调整获得专家标注，揭示了形容词评分与频谱特征的相关性。

Can It Vibrate? A Data-Driven Understanding of Guitar Timbre

BriefGPT - AI 论文速递 ·

本文探讨了利用神经网络从单幅图像生成音响脉冲响应的方法，以便更便捷地测量空间声学特征。介绍了新颖的音频环境建模技术，如NACF和AV-RIR，提升了声源定位和去混响效果。同时，研究提出了SoundCam和Real Acoustic Fields数据集，为音频与视觉结合的研究提供了数据支持。

HARP：大规模高阶Ambisonic房间脉冲响应数据集

BriefGPT - AI 论文速递 ·

本研究探讨了讽刺的声学特征、讽刺用语使用的倾向和韵律线索之间的相互作用。研究发现，当讽刺意义明显时，韵律线索的相关性较低。此外，还有其他研究探讨了讽刺解释、情感识别和讽刺检测等相关主题。

传达讽刺的韵律与语义线索之间的功能权衡

BriefGPT - AI 论文速递 ·

本研究探讨了深度学习在帕金森病患者语音分类中的应用，利用预训练模型wav2vec 2.0实现了97.92%的准确率。研究分析了自动语音识别系统的错误对分类精度的影响，并提出了新的声学特征嵌入方法，强调了模型选择和预处理的重要性，为临床诊断提供了有价值的见解。

针对声带功能障碍患者的语音质量评估方法的开发，采用包含多特征的自动语音识别表示

BriefGPT - AI 论文速递 ·

近年来，深度学习在口吃症言语识别方面取得了显著进展。研究提出了一种全自动方法，结合连续时间分类和编码器-解码器模型，能够准确识别语音异常，区分失语症患者与健康人群，漏诊率仅为10.03%。此外，研究还探讨了多任务学习和声学特征在口吃分类中的应用，显示出良好的准确性和实时性。

优化多重口吃语音分类：利用 Whisper 的编码器实现自动评估中高效参数减少

BriefGPT - AI 论文速递 ·

本文研究犬叫声的交流模式，采用自监督学习方法HuBERT，成功识别犬叫声中的基本词汇。分析表明Shiba Inu犬叫声的声学特征与主人语言环境相关，并提出了用于低资源语言的定制数据集构建方法，推动了语音生成技术的发展。

走向狗吠解码：利用人类语音处理进行自动狗吠分类

BriefGPT - AI 论文速递 ·

Deep Speaker 是一种神经说话人嵌入系统，通过余弦相似度测量说话人相似性。该系统采用 ResCNN 和 GRU 架构提取声学特征，实验表明其在多个数据集上优于传统 DNN 基线，并提高了英语说话人的识别精度。研究还探讨了模型不确定性、嵌入空间优化及新评分机制，显示出在说话人识别和验证中的有效性。

神经发音者嵌入中的余弦评分与不确定性

BriefGPT - AI 论文速递 ·

使用端到端的自动语音识别模型代替传统的语音活动检测器，在处理长音频时表现更好，提供更好的声学特征和语义特征。实验结果显示，相比于传统方法，改进了8.5%的相对WER和减少了250ms的分割延迟。

通过联合建模主要和非主要发言者改善长篇语音识别

BriefGPT - AI 论文速递 ·