小红花·文摘

Switchboard-Affect：来自对话语音的情感感知标签

Apple Machine Learning Research ·

如何构建语音情感识别模型？

DEV Community ·

本研究提出了一种基于卷积神经网络（CNN）和梅尔频谱图的语音情感识别方法，能够有效提取音频数据中的复杂模式，显著提高分类准确率，并具备实时预测能力，适用于教育环境。

Deep Learning Method for Speech Emotion Recognition Based on Convolutional Neural Networks: Utilizing Mel Spectrograms

BriefGPT - AI 论文速递 ·

会话崩溃

DEV Community ·

本研究通过增加LSTM层提升语音情感识别模型的准确性和效率。实验结果表明，双层LSTM模型的识别准确率提高了2%，且识别延迟显著降低，增强了实时性能，显示其在处理长期依赖情感特征方面的优势。

Improvement and Implementation of a Speech Emotion Recognition Model Based on Dual-layer LSTM

BriefGPT - AI 论文速递 ·

本研究提出了分段平均池化方法，有效解决了语音情感识别中非语音段的信息稀释问题。通过专注于语音段，显著提高了识别性能。实验结果显示，该方法在英语和韩语数据集上表现优异。

通过自监督学习特征的分段平均池化增强语音情感识别

BriefGPT - AI 论文速递 ·

本研究通过元学习技术结合大型预训练模型和原型网络，解决语音情感识别中的数据稀缺问题。在有限数据条件下，该方法在希腊语和罗马尼亚语数据集上分别取得了83.78%和56.30%的准确率，显示出实际应用潜力。

基于领域适应的跨语言元学习方法用于语音情感识别

BriefGPT - AI 论文速递 ·

研究探讨了自监督学习模型在跨语言语音情感识别中的应用。通过比较模型与人类在不同场景下的表现，并分析方言影响，发现适当的知识迁移能使模型在目标语言中达到母语者水平，为跨语言语音情感识别提供了新见解。

跨语言语音情感识别：人类与自监督模型的对比

BriefGPT - AI 论文速递 ·

该研究评估了基于Transformer的语音表示模型在跨多种语言的语音情感识别中的性能。结果显示，仅使用语音模型最优层的特征平均降低了7个数据集上的错误率32％。此外，德语和波斯语的语音情感识别方面取得了最新的成果。

通过语音到语音翻译和自助数据选择改善欠资源语言中的语音情感识别

BriefGPT - AI 论文速递 ·

本文介绍了一种利用深度递归神经网络识别语音情感的方法，通过训练声学特征并采用特殊的概率性CTC损失函数，该方法在长语音片段中考虑了情感和中性部分，展示了高质量的结果。

RE-ENACT：使用 Actor-Critic 策略进行情感语音生成的强化学习

BriefGPT - AI 论文速递 ·

本研究介绍了2024年MSP-Podcast语音情感识别挑战赛中的参赛作品，使用支持向量机分类器对八种情感状态进行分类。通过自监督学习在不同模态上进行微调，提高了系统的准确分类能力，开发集上取得了0.35%的F1宏平均。

2024 年 MSP-Podcast SER 挑战: Ventoux 多模自监督学习下的语音情绪识别

BriefGPT - AI 论文速递 ·

该研究评估了基于Transformer的语音情感识别模型在八种语音表示模型和六种不同语言上的性能。结果显示，仅使用语音模型最优层的特征可以降低错误率32％。此外，研究还在德语和波斯语的语音情感识别方面取得了最新成果。

INTERSPEECH 2009 情感挑戰重探：在語音情感識別領域 15 年的進展基準

BriefGPT - AI 论文速递 ·

本文研究了WavLM Large模型在语音情感识别任务中的微调策略和结果。

将 WavLM 应用于语音情感识别

BriefGPT - AI 论文速递 ·

该研究使用不同的微调策略将Wav2Vec 2.0应用于语音情感识别，提高了性能，在IEMOCAP数据集上的准确率提高了7.4%。同时提出了一种上下文化情感表示的微调方法“P-TAPT”。

使用任务自适应预训练的主动学习方法用于语音情感识别

BriefGPT - AI 论文速递 ·

emoDARTS是一种通过DARTS优化的联合CNN和SeqNN体系结构，用于提高语音情感识别性能。通过在多个数据集上的评估，证明emoDARTS优于传统设计的CNN-LSTM模型，并超过了通过DARTS在CNN-LSTM上取得的最好结果。

emoDARTS: 优化 CNN 和连续神经网络结构以实现优越的语音情感识别

BriefGPT - AI 论文速递 ·

本文介绍了一种新的端到端语音情感识别系统，利用共同关注机制和多层声学信息。实验证明该系统在IEMOCAP数据集上表现出竞争性能。

MF-AED-AEC: 利用多模态融合、ASR 错误检测和 ASR 错误修正进行语音情感识别

BriefGPT - AI 论文速递 ·

EmoDistill是一种新颖的语音情感识别框架，利用跨模态知识蒸馏从语音中学习情感表示。在IEMOCAP基准上的实验证明其优势，实现了77.49％的非加权准确率和78.91％的加权准确率。

在语音情感识别中使用谐振和打击成分的杠杆化 Mel 频谱图

BriefGPT - AI 论文速递 ·

该研究评估了基于Transformer的语音表示模型在跨多种语言的语音情感识别中的性能。实验结果表明，仅使用语音模型最优层的特征平均降低了7个数据集上的错误率32％。在德语和波斯语的语音情感识别方面取得了最新的成果，中间层的语音模型对于捕捉最重要的情感信息至关重要。

利用语音 PTM、文本 LLM 和情感 TTS 进行语音情感识别

BriefGPT - AI 论文速递 ·

该研究使用卷积神经网络构建了语音情感识别模型和多种语音属性控制方法MSAC，探索了语音情感的可靠性，并首次尝试使用超出分布检测方法测试和分析情感识别工作流程的可靠性。实验证明该方法在单一或跨语料库情感识别中表现出优越性能。

MSAC: 多音频情绪识别的多语音属性控制方法

BriefGPT - AI 论文速递 ·