标签

 基准测试 

相关的文章:

提升代理、图神经网络和文本生成能力的基准测试框架与数据集,用于衡量和改进相关领域的算法和模型。

蓝点网

蓝点网 -

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

IndicGenBench:用于评估 LLMs 在印度语言上的生成能力的多语言基准测试

印度是一个拥有 14 亿人口的语言多样性国家,为了促进多语言大型语言模型的研究和评估,我们发布了 IndicGenBench,这是一个覆盖 13 种脚本、4 种语系以及 29 种印度语言的最大基准。我们对包括 GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM 和 LLaMA 在内的各种大型语言模型在 IndicGenBench 上的表现进行了评估,结果显示多数任务中表现最好的是最大的 PaLM-2 模型,但与英语相比,所有语言都存在显著的性能差距,因此我们需要进一步的研究来开发更具包容性的多语言语言模型。

该研究引入了广泛的资源套件,旨在弥合其他语言的模型建设进展受限于资源稀缺的差距。通过手动验证数据、未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据。通过解决毒性对齐问题,生成了非有毒响应。希望这些数据和资源能推动 Indic LLMs 的研究和开发,并为其他语言建立一个开源蓝图。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

基于多样配置的移动设备控制代理的基准测试

通过引入 B-MoCA 基准测试,本研究针对移动设备控制代理开发自主代理,提高用户交互的效率和可访问性。在 Android 操作系统上创建了一个真实的基准测试,定义了 60 项常见日常任务,并通过随机化功能来评估代理的泛化性能。尽管代理们在执行简单任务方面展示出熟练性,但在复杂任务上的低效性凸显了未来研究改进其效果的重要机遇。

大型语言模型在通用软件系统中面临挑战,设计了基准测试工具AndroidArena,发现LLM代理在跨应用程序和遵守约束方面存在困难,提出的探索策略提高了成功率27%。该研究首次揭示了LLM代理的弱点,并提供了未来研究方向。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

SEED-Bench-2-Plus:基于多模态大型语言模型的文本丰富视觉理解基准测试

我们介绍了 SEED-Bench-2-Plus,这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准,通过涵盖现实世界中的三个广泛类别(图表、地图和网络),它们有效地模拟了复杂多样的文本丰富环境,并强调了当前 MLLMs 在文本丰富视觉理解方面的限制。

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。评估结果揭示了现有MLLMs的局限性,为未来的研究提供见解。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

3DBench:可扩展的 3D 基准测试和指令调优数据集

评估多模态大型语言模型(MLLMs)的性能,集成点云和语言,面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步,从而妨碍该领域的进一步发展。我们引入了可扩展的 3D 基准测试和大规模指令调整数据集 3DBench,提供了一个全面评估 MLLMs 的可扩展平台,以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围,涉及感知和规划任务,并且我们提出了一个严格的流程来自动生成可扩展的 3D 指令调整数据集,总共涵盖了 10 个多模态任务,共生成了超过 23 万个问答对。通过对热门 MLLMs 的彻底实验评估、与现有数据集的比较以及训练方案的变异,我们展示了 3DBench 的优越性,为当前的局限性和潜在研究方向提供了有价值的见解。

本文介绍了3DBench,一个可扩展的3D基准测试和大规模指令调整数据集,用于评估多模态大型语言模型(MLLMs)的性能。通过实验评估和与现有数据集的比较,展示了3DBench的优越性。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

TAVGBench:文本转音频 - 视频生成性能基准测试

提出了一个用于生成文字描述音频视频的基准测试集(TAVGBench),包含超过 1.7 百万个剪辑,总时长达到 11.8 千小时。通过自动注释流程,确保每个音频视频都具有音频和视频内容的详细描述。引入了 Audio-Visual Harmoni 分数(AVHScore),用于定量衡量生成音频和视频之间的对齐程度。此外,还提出了名为 TAVDiffusion 的 TAVG 基线模型,使用双流潜在扩散模型提供深入研究该领域的基础起点。通过在 TAVGBench 上进行广泛实验和评估,展示了我们所提出模型在传统指标和我们提出的指标下的有效性。

该研究提出了一种基于音频样本的文本-视频生成模型,能够生成多样化和逼真的视频。通过使用适配器网络将音频基础表示映射到生成模型的输入表示,实现了对文本、音频和文本与音频的生成视频。实验证明,该方法生成的视频在内容和时间轴上与输入音频更好地对齐,并且具有更高的视觉质量和多样性。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

眼见不一定全是实情:多模态大语言模型因果推理能力的基准测试

基于现有多模态大型语言模型 (MLLMs) 在视觉问答评测方面的认知和推理能力,我们提出了一个新的 CFMM(Counterfactual MultiModal)基准测试,以系统评估 MLLMs 的反事实推理能力,发现现有 MLLMs 往往更加倾向于相信所见而忽视问题中提到的反事实前提,因此导致了不准确的回答,同时也表明现有 MLLMs 在逼近人类智能方面仍有较大提升空间,我们还探索了通过在未来提升 MLLMs 在 CFMM 上的表现来发展具备先进智能的 MLLMs 的潜在途径。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

如何为语义分割基础模型进行基准测试?

最近的视觉基础模型在各种任务中展示了高效性,但需要有监督的精调才能有效地执行语义分割任务。本文的主要目标是研究如何对视觉基础模型进行语义分割的基准测试,通过在不同设置下对各种模型进行细调并评估各个设置对性能和训练时间的影响,提出了建议的基准测试设置,以评估视觉基础模型的性能。

视觉语言模型在细粒度的视觉语言概念理解方面存在挑战。研究者提出了一种渐进式流水线和基准测试方法,发现现有模型在细粒度理解上表现不佳。他们提出了一种简单有效的方法来优化模型性能,并在其他基准测试上验证了方法的可迁移性。

相关推荐 去reddit讨论
程序师

程序师 -

【译文】在 TechEmpower Web 框架基准测试中,Rust 的速度为何如此之快?

TechEmpower 基准实际上是一个苹果和一辆汽车之间的比较,所以请不要用它来作为选择技术的动机,否则以后会让你吃不了兜着走!

Rust在TechEmpower Web框架基准测试中表现出色,但需要注意基准测试的局限性。文章介绍了Fortunes基准测试,比较了不同框架的性能。axum [postgresql]的速度比hyper快,可能是因为使用了不同的模板库。axum [postgresql]和hyper都使用了prepared语句,但axum [postgresql - deadpool]没有使用,导致性能较差。两个框架都使用了无共享架构。axum [postgresql]和hyper每个线程都使用一个数据库连接,但实际应用中应使用连接池。may-minihttp使用自定义内存分配器。总结时指出TechEmpower基准测试只是比较,不能作为选择技术的依据。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

MMInA:多跳多模态互联网代理的基准测试

多模态网站的自主体代理在逐渐演变的真实环境中完成复杂用户任务具有挑战性,提出了 MMInA,这是一个多跳和多模态评估综合互联网任务能力的基准,通过构建真实世界的多模态网站和综合任务评估协议,发现自主体代理在长链多跳互联网任务方面存在挑战,提出了一种简单的记忆增强方法,明显提高了代理的单跳和多跳网络浏览能力。

WebVoyager是一种创新的网络代理,通过与真实网站的交互来完成用户指令。使用GPT-4V的多模态理解能力,WebVoyager在15个广泛使用的网站上获得了55.7%的任务成功率,超过了其他设置。自动评估与人类判断达到了85.3%的一致性。

相关推荐 去reddit讨论

热榜 Top10

观测云
观测云
eolink
eolink
Dify.AI
Dify.AI
LigaAI
LigaAI

推荐或自荐