小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新颖的视觉字幕评估指标G-VEval，利用GPT-4o的链式推理，克服了传统评估指标在语义深度和零-shot场景中的局限性。研究表明，G-VEval在与人工注释的相关性上优于现有方法，为自动字幕生成提供了灵活的解决方案。

G-VEval: A Versatile Metric for Evaluating Image and Video Captions

BriefGPT - AI 论文速递 ·

视觉说明：通过实时视觉画面增强语言交流 (Visual Captions: Augmenting Verbal Communication with On-the-fly Visuals)

视觉说明：通过实时视觉画面增强语言交流 (Visual Captions: Augmenting Verbal Communication with On-the-fly Visuals)

北京大学可视化与可视分析博客 ·