Chumor 1.0: 来自若知吧的真正有趣且具有挑战性的中文幽默理解数据集
原文中文,约300字,阅读约需1分钟。发表于: 。通过对 Ruo Zhi Ba 平台上的智力挑战和文化特定笑话进行注释,我们构建了一个名为 Chumor 的数据集,并通过 A/B 测试与两种先进的语言模型 GPT-4o 和 ERNIE Bot 进行人类解释评估,结果表明 Chumor 是对于 SOTA 语言模型也具有挑战性,而 Chumor 笑话的人类解释明显优于语言模型生成的解释。
这篇文章介绍了一个独特的多模态偏好数据集,用于创意任务。通过众包整理了超过250万个标注为《纽约客》周刊漫画字幕比赛的超过2.2亿个人类评分。实验证明了当前的Fine-Tuning方法在创意任务中的局限性,并展示了最先进模型在生成幽默字幕方面也不及顶级人类参赛者。整个偏好数据集将被释放给研究界,促进AI幽默生成和评估的进一步发展。