本研究提出了AdTEC,首个从实际广告操作视角评估广告文本的公共基准。通过构建基于广告代理商实际操作经验的数据集,发现现有预训练语言模型在多个任务上已达到实际使用水平,但仍有改进空间。
本文介绍了多图像视觉问答(MIQA)任务和新的公共基准“可视的干草堆(VHs)”,并提出了MIRAGE框架来处理LMMs的MIQA挑战。MIRAGE在VHs基准上超过了GPT-4o模型,并实现了高达3.4倍的效率改进。
本文介绍了一个新的公共基准,用于针对柯尔克孜语进行主题分类。作者使用来自24.KG新闻网站的数据集进行训练和评估,并提出了多标记设置下的几个基准模型。文章讨论了结果和未来工作的方向。
完成下面两步后,将自动完成登录并继续当前操作。