本文介绍了一种多模态融合模型,通过分析视频和音频特征来识别口语句子的情感。该模型在CMUMOSEI数据集上取得了0.8049的F1得分,显示出光流特征和音频特征在情感预测中的优越性。研究还提出了多种情感分析方法和数据集,推动了情感计算的发展。
通过SETR-PKD框架实现了视频中癫痫发作分类和隐私保护的早期检测,该框架利用光流特征和基于transformer的知识蒸馏,解决了当前方法的局限性。在癫痫发作一半进程时,SETR-PKD框架以83.9%的准确度实现了隐私保护的强直-阵挛发作检测。
完成下面两步后,将自动完成登录并继续当前操作。