小红花·文摘 - 小红花技术领袖俱乐部

MISP 2025挑战聚焦于复杂声学条件下的会议转录，提出音视频说话者分离与识别任务。参与者通过结合音频和视频模态，显著提升了系统准确率，展示了多模态信息在语音处理中的潜力。

Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Speaker Separation and Recognition

BriefGPT - AI 论文速递 ·

本研究探讨了文本数据中的说话者识别问题，提出了一种基于大型预训练模型的模糊指纹方法。通过整合说话者特定令牌和上下文建模，显著提高了识别准确率，并在多个数据集上表现优越，为文本基础的说话者识别提供了重要见解。

Speaker Fuzzy Fingerprints: Benchmarking Text-Based Identification in Multiparty Dialogues

BriefGPT - AI 论文速递 ·

高级语音转文本

高级语音转文本

DEV Community ·

基于AssemblyAI的高级语音转文本应用

基于AssemblyAI的高级语音转文本应用

DEV Community ·

本文探讨了利用互信息和编码器—判别器结构进行音频信号处理，提出了SincNet编码器以实现有效的说话者识别。通过强化模型正则化和潜空间量化，改善了表示学习的模块化。同时，介绍了MusicGen模型生成高质量音乐样本，以及条件图像生成方法在视觉保真度和样本多样性上的应用。

一种促进独立性的损失函数用于语言模型生成音乐

BriefGPT - AI 论文速递 ·