小红花·文摘

本研究探讨了大规模语言模型在幽默理解方面的不足，通过将幽默理解分解为三个部分并进行改进，达到了82.4%的字幕排名准确率，超越了67%的基准，接近人类专家水平。这表明与特定群体对齐能有效提升模型的创意判断能力。

BriefGPT - AI 论文速递 ·

本研究分析了多模态幽默理解基准的三大局限，提出了PunchBench基准，优化了评价标准，并引入了从简单到复杂的问题链策略，以提升幽默理解能力。

BriefGPT - AI 论文速递 ·