本研究提出了一种新颖的视觉字幕评估指标G-VEval,利用GPT-4o的链式推理,克服了传统评估指标在语义深度和零-shot场景中的局限性。研究表明,G-VEval在与人工注释的相关性上优于现有方法,为自动字幕生成提供了灵活的解决方案。
本研究分析了自动语音识别系统(如Whisper)在不同性别群体中的表现差异,重点关注字错率和字符错率,揭示了性别偏见对自动字幕生成的影响。
完成下面两步后,将自动完成登录并继续当前操作。