Facial Dynamics in Video: Instruction Tuning for Enhanced Facial Expression Perception and Contextual Awareness
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了新的指令跟随数据集和FaceTrack-MM模型,以解决视频多模态大型语言模型在面部表情描述中的不足。该模型能够有效追踪复杂场景中的面部表情,显著提升视频MLLMs的性能。
🎯
关键要点
- 本研究提出了新的指令跟随数据集,以解决视频多模态大型语言模型在面部表情描述中的不足。
- 引入了FaceTrack-MM模型,能够在复杂多人物场景中有效追踪面部表情。
- 研究结果表明,FaceTrack-MM模型在面部表情捕捉方面表现出色,显著提升了视频MLLMs的性能。
🏷️
标签
➡️