小红花·文摘

新的基准揭示了AI视觉-语言模型在73,000个人类测试中的显著性能差距

DEV Community ·

本研究提出了一种结合不平衡感知技术的联合训练基准，以解决少样本增量学习中的类别不平衡问题，缩小基础类与增量类的性能差距，并规范了实验设置与评估流程。

针对少样本增量学习的新基准：重新定义上限

BriefGPT - AI 论文速递 ·

本研究探讨了线性注意力与Softmax注意力之间的性能差距，提出理论分析，指出提升线性注意力的注入性和局部建模能力可以降低计算复杂度，从而超越Softmax注意力。

Bridging the Gap: Rethinking Softmax and Linear Attention

BriefGPT - AI 论文速递 ·

本研究提出Marco-LLM，通过大规模多语言训练，提升低资源语言在多语言任务中的表现，缩小了高资源语言与低资源语言之间的性能差距。

Marco-LLM: Achieving Cross-Language Enhancement through Large-Scale Multilingual Training

BriefGPT - AI 论文速递 ·

本研究探讨了语言模型在不同语言中的表现差异，发现拼合语言（如土耳其语）优于融合语言（如英语）。提出了MorphScore评估指标，并指出高质量标记化和数据集规模是性能差距的主要因素。

为什么语言模型在形态复杂的语言上表现较差？

BriefGPT - AI 论文速递 ·

本研究提出了首个大规模多语言调试基准MdEval，涵盖18种编程语言的3.6K测试样本。引入调试指令语料库MDEVAL-INSTRUCT，并开发多语言调试器xDebugCoder，显著提升调试效果，揭示开源与闭源模型的性能差距，显示改进空间。

MdEval: Massively Multilingual Code Debugging

BriefGPT - AI 论文速递 ·

本文介绍了多模态大型语言模型（MLLM）的评估基准MME，评估了10种先进模型，并探讨了模型优化方向。研究发现，现有模型在多模态任务中存在显著性能差距，提出了MLLM-Bench基准以更全面评估模型性能，强调了对MLLMs改进的需求，并总结了未来研究方向。

多模态大型语言模型的评估综述

BriefGPT - AI 论文速递 ·

苹果回应新款 iPad Air GPU「缩水」疑云

爱范儿 ·

这篇文章介绍了多个基准测试框架，用于评估大型语言模型（LLMs）在多轮互动和任务自动化中的能力。研究显示，强模型与弱模型之间存在显著性能差距，并提出了改进模型能力的概率图模型方法。文章强调标准化评估和伦理指南在人工智能发展中的重要性，并介绍了用于知识图谱工程和任务自动化的评估工具。

AgentQuest: 一个模块化的基准测试框架，用于衡量和提升 LLM 代理的进展

BriefGPT - AI 论文速递 ·

最新研究发现，大型语言模型在非洲语言上的性能较差，与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现良好，但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表。

拯救英雄伊巴什的遗产：评估四个语言模型对氨基酸的作用

BriefGPT - AI 论文速递 ·

该研究介绍了ArcMMLU，一种为中文图书馆与信息科学领域定制的基准测试。研究发现，大多数主流LLM在ArcMMLU上的平均准确率超过50％，但仍存在性能差距。ArcMMLU填补了中文LIS领域LLM评估的空白，为未来发展铺平了道路。

MoZIP：知识产权中评估大型语言模型的多语言基准

BriefGPT - AI 论文速递 ·

CMMU：中文多模态多类型问题理解与推理基准

BriefGPT - AI 论文速递 ·

ArcMMLU是一种专为中文图书馆与信息科学领域定制的基准测试，填补了中文LIS领域LLM评估的空白。研究发现，大多数主流LLM在ArcMMLU上的平均准确率超过50％，但仍存在性能差距，需要改进。ArcMMLU为未来发展铺平了道路。

CMMMU: 一个中国的大型多学科多模态理解基准

BriefGPT - AI 论文速递 ·

联邦学习是一种有前途的研究范式，可以在各方之间进行机器学习模型的协作训练，而无需进行敏感信息交换。本研究回顾了应用于视觉识别的联邦学习，强调了架构设计选择在实现最佳性能方面的重要作用。研究结果表明，架构选择可以显著提高联邦学习系统的性能，尤其是在处理异构数据时。同时，研究强调了在实际场景中计算机视觉任务中架构设计的重要性，缩小了联邦学习和集中学习之间的性能差距。

水平联邦计算机视觉

BriefGPT - AI 论文速递 ·

最新研究发现，大型语言模型在非洲语言上的性能较差，与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现平均，但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。

大规模语言模型的零射击跨语言再排序用于低资源语言

BriefGPT - AI 论文速递 ·

本文介绍了视觉对话任务，通过图像、对话历史和问题，要求AI智能体与人类进行对话。提出了基于视觉的测试方法和二人聊天数据收集协议。利用多个编码器和解码器，超越了基准线，并评估了机器和人类在视觉对话任务上的性能差距。

InfoVisDial: 大型多模态和语言模型的信息可视对话数据集

BriefGPT - AI 论文速递 ·

本文研究了基于预训练语言模型的文本分类任务在主题分布变化时的性能差距，并验证了经典PLMs和现代大模型都面临领域转移的挑战。通过增加主题控制的合成文本，F1得分在某些主题上提高了50％，但其他主题则没有改进。该方法适用于其他分类任务。

BERT 走出题材范畴：通过类型分类研究领域转换挑战

BriefGPT - AI 论文速递 ·

该文介绍了一种名为自监督跨视图训练（SCT）的框架，用于缩小大型和小型预训练语言模型（PLM）之间的性能差距。SCT在7个语义文本相似性（STS）基准测试中，与5个基准和最先进的竞争对手相比，在21个案例中的18个中胜过竞争对手，对于参数少于100M的PLMs表现出色。

一种高效的自监督跨视角句子嵌入训练

BriefGPT - AI 论文速递 ·

本文介绍了视觉对话任务及其测试方法和数据收集协议，采用多种编码器和解码器超越了基准线，演示了第一款“视觉聊天机器人”，并通过基于检索的评估协议Quantify了机器和人类在视觉对话任务上的性能差距。

在目标导向的视觉对话中指出人类答案错误

BriefGPT - AI 论文速递 ·