小红花·文摘

本研究提出了一种基于文本中心的多模态评估方法，旨在解决课堂话语评估的不足。通过注意力机制和多任务学习，评估自然话语、提问和解释的质量。结果表明，文本模态主导，音频特征提升了模型与人类评分的一致性，为自动评估课堂话语质量奠定了基础。

Multimodal Assessment of Classroom Discourse Quality: A Text-Centered Attention-Based Multi-Task Learning Approach

BriefGPT - AI 论文速递 ·

本研究对渐进摇滚音乐的复杂作曲和多样化乐器特征进行分类，采用音频特征提取和多种机器学习技术，最终实现76.38%的准确率。

Classification of Progressive Rock Music

BriefGPT - AI 论文速递 ·

幕后揭秘：现代文本转语音AI的工作原理

DEV Community ·

本研究提出了一种新方法，通过结合音频特征与视觉信息，生成自然声音对应的视觉场景图像。该方法在VEGAS和VGGSound数据集上显著提高了生成效果，展示了对生成过程的控制能力，证明了其适用性和通用性。

Sound to Vision: Generating Diverse Visual Images through Cross-Modal Latent Alignment

BriefGPT - AI 论文速递 ·

本研究利用Wav2Vec2和HuBERT模型自动提取扬声器情感识别的音频特征，结果在多个数据集上表现优异，并成功应用于呼叫中心的情感预测。

扬声器情感识别：利用自监督模型通过Wav2Vec2和HuBERT进行特征提取

BriefGPT - AI 论文速递 ·

本研究探讨了利用循环神经网络识别音乐情感，以增强音乐推荐系统和支持治疗干预。通过Russell情感象限对音乐进行分类，开发了准确的预测模型。使用Librosa提取音频特征，并比较了不同RNN架构的性能，结果表明简单RNN在小数据集上表现良好。研究展示了神经网络在个性化音乐推荐和治疗系统中的潜力。

基于半监督自学习的增强音乐情感识别

BriefGPT - AI 论文速递 ·

本研究提出了一种基于NeRF的网络，通过自监督学习提取音频特征，并采用对比学习方法，确保音频特征与口部运动的对齐，同时拆分与面部其他肌肉运动无关的部分。研究结果表明，该方法能够合成高保真度的谈话面孔视频，并在面部表情转移和口型同步方面达到最新的技术水平。

JEAN：基于音频引导的联合表情与 NeRF 的谈话面孔生成

BriefGPT - AI 论文速递 ·

本文介绍了一种由多个卷积神经网络和大规模人脸识别数据集训练得到的强大人脸识别网络组成的集成模型，通过捕获视频中的空间和音频特征，提高了情绪识别的准确性。测试结果显示，该模型在不使用视觉时间信息的情况下，将测试集的最佳结果提高了约1%，达到了60.03%的分类准确度。

以情感为中心的模型缓解面部表情识别中的灾难性遗忘

BriefGPT - AI 论文速递 ·

该研究通过预处理视频和音频，提取视觉和音频特征，并使用时间卷积网络和Transformer编码器结构来提高模型性能和泛化能力。研究还融合了预训练的音频和视频模型进行特征提取，取得了较好的VA评估性能。

基于时空序列和关系学习的情感 - 激活估计的多模态融合方法

BriefGPT - AI 论文速递 ·

该研究提出了一种空间对齐引导模型，能够在2D和3D中使用声音进行室内预测。该模型通过将音频特征与视觉连贯的可学习空间嵌入进行整合，在学生模型的多个层次中解决不一致问题。通过新的基准数据集DAPS，该方法在2D和3D中利用音频观测数据解决了全方位密集室内预测问题，在各种指标和骨干架构上始终取得了最先进的性能。

通过对齐的跨模态蒸馏实现密集的二维 - 三维室内声音预测

BriefGPT - AI 论文速递 ·