小红花·文摘

AutoSubs - 本地生成准确、可编辑的字幕或与DaVinci集成使用…

云原生 ·

本研究提出了一种新颖的WSI框架，利用预训练的Whisper模型在多语言环境中进行说话人识别。通过联合损失优化，该方法显著提升了非英语语言的识别性能。

Speaker Identification: Achieving Robust Speaker Embeddings Using Pre-trained Multilingual Transformers

BriefGPT - AI 论文速递 ·

🚀 构建一个人工智能驱动的通话智能系统：开发者的史诗之旅

DEV Community ·

本研究探讨了编码层、池化层和损失函数在语音说话人和语言识别系统中的作用，开发了一个可解释的端到端系统，显著提升了性能。提出了基于CNN的说话人识别模型及多种改进方法，实验结果在不同数据集上表现优异，特别是在特征提取和模型架构方面取得了显著进展。

预训练模型多层特征的通用池化方法用于扬声器验证

BriefGPT - AI 论文速递 ·

本文介绍了多个说话人识别挑战的研究进展，重点在于使用卷积神经网络及新架构（如U-Net、ResNet、RepVGG）提升识别性能。研究在VoxCeleb数据集上取得显著成果，提出了创新的迁移学习方法和语音活动检测模型，并推出了新的西班牙语说话人识别数据集VoxCeleb-ESP，为该领域提供了重要基准。

VoxCeleb说话者识别挑战：回顾

BriefGPT - AI 论文速递 ·

本文介绍了说话人识别的研究进展，包括基于深度学习的模型、漏洞评估、偏差问题及新数据集的发布。研究表明，采用先进模型和大数据训练显著提高识别性能，并提出新方法准确识别对话中的演讲者姓名，达到80.3%的高精度。

深度学习在说话人识别中的应用：基于AB-1语料库分析的架构洞察与性能评估

BriefGPT - AI 论文速递 ·

本研究探讨了多种语音分析方法，特别是使用卷积神经网络（CNN）评估儿童语言发展。研究发现，精细调节音素模型显著提高了准确性，而ASR伴音模型在任务中表现最佳。此外，提出了一种基于原始波形的说话人识别模型，结合机器学习技术，适用于半监督学习场景，性能优越。

基于参数化和非参数化 CNN 的原始波形声学模型的语音误差分析

BriefGPT - AI 论文速递 ·

Deep Speaker 是一种神经说话人嵌入系统，通过余弦相似度测量说话人相似性。该系统采用 ResCNN 和 GRU 架构提取声学特征，实验表明其在多个数据集上优于传统 DNN 基线，并提高了英语说话人的识别精度。研究还探讨了模型不确定性、嵌入空间优化及新评分机制，显示出在说话人识别和验证中的有效性。

神经发音者嵌入中的余弦评分与不确定性

BriefGPT - AI 论文速递 ·