小红花·文摘

本文探讨了大型多模态模型（LMMs）在科学问题解决中的能力，提出了SciVerse基准测试，揭示了其在科学知识理解和推理方面的局限性，旨在促进未来的发展。

SciVerse: Revealing Knowledge Understanding and Visual Reasoning of Large Multi-modal Models in Multi-modal Scientific Problems

BriefGPT - AI 论文速递 ·

该研究使用Evolver将链式演化触发技术整合进模因检测中，以模拟模因的演化和表达过程，并通过逐步处理的方式进行推理。该方法改善了现有LMMs的性能并促进了对社会模因演化的理解。

Evolver：链式演进引导下的大型多模态模型提升恶意模仿推测

BriefGPT - AI 论文速递 ·

本研究评估了大型多模态模型（LMMs）在视觉类比推理上的性能，并与儿童和成年人进行比较。结果显示，LMMs在量化变化方式并应用于新对象时存在困难，而儿童和成年人在类比推理能力上更强。这突显了在二维图像和文本数据上训练模型的局限性。

KiVA：用于测试大型多模态模型的儿童启发式视觉类比

BriefGPT - AI 论文速递 ·

最近的研究发现，大型语言模型和大型多模态模型在医疗应用中具有潜力。研究引入了RJUA-MedDQA基准测试，用于解释医学报告的复杂性和推理能力。通过使用高效的结构恢复注释方法，提高了注释效率并提供了准确率改进。对多个LMMs进行了评估，发现现有的模型性能仍受限制，但LMMs在处理低质量和多样化结构的图像上更加稳健。希望该基准测试能推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。

多粒度多图关系关联的标准基准 (MMRA)

BriefGPT - AI 论文速递 ·

介绍了Visual Haystacks（VHs）Benchmark，用于评估大型多模态模型（LMMs）在处理大量图像数据时的能力。发现现有的LMMs在处理大量图像时存在困难，尤其是在存在视觉干扰的情况下。介绍了名为MIRAGE的新训练范式，通过压缩编码、使用检索器和增加多图像训练数据来改善MIQA任务的性能。提出了使用Visual Haystacks框架来评估模型性能的建议。

我们准备好进行多图像推理了吗？推出VHs：视觉干草堆基准！

The Berkeley Artificial Intelligence Research Blog ·

研究发现大型多模态模型在视觉任务中表现出前所未有的精确性，对于帮助盲人或视障人士提供准确答案至关重要。研究还发现，在上下文学习的多模态模型中，视觉模型的可能性得分比纯文本模型更为校准。研究者提出了一种结合了两种模式的采样和可能性方法优点的校准评分。

用于二元问题回答的校准大型语言模型

BriefGPT - AI 论文速递 ·

这篇综述调查了仇恨言论管理的最新进展，重点介绍了大型语言模型和大型多模态模型在其中的作用。研究发现文本、视觉和听觉元素在传播仇恨言论中相互影响。研究还指出了处理少数语言和文化情况下的空白领域，并强调了解决低资源环境的需求。展望未来，研究提出了探索新的人工智能方法论、伦理治理和开发更加细致入微、具有上下文意识的系统等潜在方向。目标是推动更加复杂、负责任和以人为中心的数字时代仇恨言论管理方法的发展。

针对大型多模型中的语音特定风险进行探究：一种分类、基准和洞见

BriefGPT - AI 论文速递 ·

本文研究了大型多模态模型 (LMMs)，特别是 GPT-4V (ision) 和 Gemini 的最新进展。通过在最新的 MIND2WEB 基准上进行评估，展示了 GPT-4V 在网络代理中的巨大潜力。然而，转化仍然是一个主要的挑战，现有的 LMM 转化策略并不适用于网络代理。

QuadrupedGPT：开放式环境中的多功能四足机器人代理

BriefGPT - AI 论文速递 ·

大型多模态模型（LMMs）在视觉理解和推理方面取得成功。研究发现，GPT-4V在多步图推理方面优于Gemini Pro。通过描述-编程-推理（DPR）链可以显著提高多步图推理能力。GPT-4V（DPR）代理达到了SOTA性能。

视觉草稿本：多模态语言模型的可视化思维链

BriefGPT - AI 论文速递 ·

研究发现，大型多模态模型在生成、检测和分类视觉概念方面的能力是模型特定且不可转移的。通过对三种先进模型进行分析，发现新的词嵌入是模型特定且不可转移的。研究还展示了软提示微调方法在视觉概念学习任务中发现这些扰动解，而视觉概念的嵌入是不可转移的。

《针对智能摄像头与智能家居厂商的视频分析》之典型应用场景和核心特性

亚马逊AWS官方博客 ·

本文研究了医疗保健领域中大型多模态模型（LMMs）的适应性问题，并提出了上下文学习（ICL）作为解决方案。通过无监督的ICL方法和基于类别条件对比不变性（CCI）的InvariantSelectPR方法，改进了LMMs的适应能力，提高了性能。

适应分布偏移的大规模多模态模型：内文学习的作用

BriefGPT - AI 论文速递 ·

大型多模态模型在广泛的视觉语言基准测试中表现出色，但在需要对底层视觉细节进行精确感知的任务中，常常遇到困难。为了解决这个问题，提出了一种名为VDLM的模型，它在二维矢量图形领域进行基于文本的推理。VDLM使用可伸缩矢量图形（SVG）进行精确的视觉描述，并通过预先训练的语言模型建立SVG和PVD之间的桥梁。VDLM具有更强的零样本性能，适用于各种基于二维矢量图形的低级多模态感知和推理任务。

VisionGPT：通用多模态框架基于视觉 - 语言理解 Agent

BriefGPT - AI 论文速递 ·

该研究提出了一种名为多模态图像语义压缩（MISC）的方法，采用大型多模态模型（LMM）来平衡传统自然感知图像和人工智能生成图像的压缩，实现了一致性和感知结果的优化，节省了50％的比特率，并在存储和通信领域具有强大的应用潜力。

MISC：基于大型多模态模型驱动的超低比特率图像语义压缩

BriefGPT - AI 论文速递 ·

研究评估了多个开源和闭源模型，并开发了一种对比的思维链（CoCoT）启发方法来增强大型多模态模型（LMMs）的性能。实验结果展示了CoCoT在增强多模态模型的多图像理解能力方面的熟练度。

VisualWebArena: 在现实视觉网络任务中评估多模态代理

BriefGPT - AI 论文速递 ·

本文研究了大型多模态模型 (LMMs)，特别是 GPT-4V (ision) 和 Gemini 的最新进展，扩展了多模态模型的能力边界。提出了SEEACT，一种利用LMMs的通用网络代理，可以根据自然语言指令在任何给定的网站上完成任务。通过在最新的MIND2WEB基准上进行评估，展示了GPT-4V在网络代理中的巨大潜力。转化仍然是一个主要的挑战，现有的LMM转化策略并不适用于网络代理，需要进一步改进。

GPT-4V 是一种通用的互联网代理系统，具有视觉能力

BriefGPT - AI 论文速递 ·

LLaVA-Plus是一个通用的多模态助手，扩展了大型多模态模型的功能。它通过激活相关工具和维护预训练的视觉和视觉语言模型的技能存储库来实现实际任务。实证结果表明，LLaVA-Plus在现有功能上优于LLaVA，并展示出新的功能。它在图像查询和人工智能与人类交互过程中具有独特之处，提高了工具使用性能并实现了新的场景。

CLOVA：带有工具使用和更新的封闭循环视觉助手

BriefGPT - AI 论文速递 ·

SciVerse: Revealing Knowledge Understanding and Visual Reasoning of Large Multi-modal Models in Multi-modal Scientific Problems

Evolver：链式演进引导下的大型多模态模型提升恶意模仿推测

KiVA：用于测试大型多模态模型的儿童启发式视觉类比

多粒度多图关系关联的标准基准 (MMRA)

我们准备好进行多图像推理了吗？推出VHs：视觉干草堆基准！

用于二元问题回答的校准大型语言模型

针对大型多模型中的语音特定风险进行探究：一种分类、基准和洞见

QuadrupedGPT：开放式环境中的多功能四足机器人代理

视觉草稿本：多模态语言模型的可视化思维链

跨模型理解视觉概念

《针对智能摄像头与智能家居厂商的视频分析》之典型应用场景和核心特性

适应分布偏移的大规模多模态模型：内文学习的作用

基于文本的矢量图形推理

VisionGPT：通用多模态框架基于视觉 - 语言理解 Agent

MISC：基于大型多模态模型驱动的超低比特率图像语义压缩

大型多模态模型中的支架坐标促进视觉 - 语言协调

VisualWebArena: 在现实视觉网络任务中评估多模态代理

推进大型多模型：明确的推理链与视觉问题生成

GPT-4V 是一种通用的互联网代理系统，具有视觉能力

CLOVA：带有工具使用和更新的封闭循环视觉助手