ViLBench是一个新的视觉-语言模型评估基准,包含理解、跟随、推理和生成四个测试套件,基于73,000个用户偏好注释,揭示了当前多模态AI系统的显著性能差距。
本研究提出了一种结合不平衡感知技术的联合训练基准,以解决少样本增量学习中的类别不平衡问题,缩小基础类与增量类的性能差距,并规范了实验设置与评估流程。
本研究探讨了线性注意力与Softmax注意力之间的性能差距,提出理论分析,指出提升线性注意力的注入性和局部建模能力可以降低计算复杂度,从而超越Softmax注意力。
本研究提出Marco-LLM,通过大规模多语言训练,提升低资源语言在多语言任务中的表现,缩小了高资源语言与低资源语言之间的性能差距。
本研究探讨了语言模型在不同语言中的表现差异,发现拼合语言(如土耳其语)优于融合语言(如英语)。提出了MorphScore评估指标,并指出高质量标记化和数据集规模是性能差距的主要因素。
本研究提出了首个大规模多语言调试基准MdEval,涵盖18种编程语言的3.6K测试样本。引入调试指令语料库MDEVAL-INSTRUCT,并开发多语言调试器xDebugCoder,显著提升调试效果,揭示开源与闭源模型的性能差距,显示改进空间。
本文介绍了多模态大型语言模型(MLLM)的评估基准MME,评估了10种先进模型,并探讨了模型优化方向。研究发现,现有模型在多模态任务中存在显著性能差距,提出了MLLM-Bench基准以更全面评估模型性能,强调了对MLLMs改进的需求,并总结了未来研究方向。
苹果官网在iPad Air参数页面上将M2芯片的图形处理器核心数量从10核心改为9核心,原因未知。M2芯片仍然是一个强大的升级,但对于游戏玩家和专业用户而言,性能差距可能有遗憾。苹果有义务及时通知消费者这一变化。
这篇文章介绍了多个基准测试框架,用于评估大型语言模型(LLMs)在多轮互动和任务自动化中的能力。研究显示,强模型与弱模型之间存在显著性能差距,并提出了改进模型能力的概率图模型方法。文章强调标准化评估和伦理指南在人工智能发展中的重要性,并介绍了用于知识图谱工程和任务自动化的评估工具。
最新研究发现,大型语言模型在非洲语言上的性能较差,与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现良好,但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表。
该研究介绍了ArcMMLU,一种为中文图书馆与信息科学领域定制的基准测试。研究发现,大多数主流LLM在ArcMMLU上的平均准确率超过50%,但仍存在性能差距。ArcMMLU填补了中文LIS领域LLM评估的空白,为未来发展铺平了道路。
ArcMMLU是一种专为中文图书馆与信息科学领域定制的基准测试,填补了中文LIS领域LLM评估的空白。研究发现,大多数主流LLM在ArcMMLU上的平均准确率超过50%,但仍存在性能差距,需要改进。ArcMMLU为未来发展铺平了道路。
联邦学习是一种有前途的研究范式,可以在各方之间进行机器学习模型的协作训练,而无需进行敏感信息交换。本研究回顾了应用于视觉识别的联邦学习,强调了架构设计选择在实现最佳性能方面的重要作用。研究结果表明,架构选择可以显著提高联邦学习系统的性能,尤其是在处理异构数据时。同时,研究强调了在实际场景中计算机视觉任务中架构设计的重要性,缩小了联邦学习和集中学习之间的性能差距。
最新研究发现,大型语言模型在非洲语言上的性能较差,与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现平均,但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。
本文介绍了视觉对话任务,通过图像、对话历史和问题,要求AI智能体与人类进行对话。提出了基于视觉的测试方法和二人聊天数据收集协议。利用多个编码器和解码器,超越了基准线,并评估了机器和人类在视觉对话任务上的性能差距。
本文研究了基于预训练语言模型的文本分类任务在主题分布变化时的性能差距,并验证了经典PLMs和现代大模型都面临领域转移的挑战。通过增加主题控制的合成文本,F1得分在某些主题上提高了50%,但其他主题则没有改进。该方法适用于其他分类任务。
该文介绍了一种名为自监督跨视图训练(SCT)的框架,用于缩小大型和小型预训练语言模型(PLM)之间的性能差距。SCT在7个语义文本相似性(STS)基准测试中,与5个基准和最先进的竞争对手相比,在21个案例中的18个中胜过竞争对手,对于参数少于100M的PLMs表现出色。
本文介绍了视觉对话任务及其测试方法和数据收集协议,采用多种编码器和解码器超越了基准线,演示了第一款“视觉聊天机器人”,并通过基于检索的评估协议Quantify了机器和人类在视觉对话任务上的性能差距。
完成下面两步后,将自动完成登录并继续当前操作。