小红花·文摘

本研究针对现有长期视频理解方法在处理复杂视频数据时性能不足的问题，提出了一种新的框架IQViC，利用上下文和问题适应的视觉压缩技术。该方法通过选择性提取相关信息，显著降低了内存要求，并在长期视频问答方面表现出卓越的准确性和效率。

IQViC：适应性问题的上下文视觉压缩器用于长期视频理解的LMMs

BriefGPT - AI 论文速递 ·

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，零污染

机器之心 ·

本文提出了LLM-Eval，一种用于评估开放领域对话系统的统一方法。通过设计基于单个提示的评估方法，LLM-Eval可以在单个模型调用中进行多维自动评估。该方法在各种基准数据集上表现出高效性和适应性，并强调了选择适当的LLM和解码策略的重要性。LLM-Eval为评估对话系统提供了一种多功能且强大的解决方案。

LMMs-Eval: 对大型多模态模型评估的现实检验

BriefGPT - AI 论文速递 ·

该研究提出一种新的架构 DeepStack 用于大型多模态模型（LMMs），通过将视觉令牌分组堆叠到与之对应的转换层以增强 LMMs 的建模能力，并在广泛的实证结果中验证了 DeepStack LMMs 的有效性。

DeepStack: 深度堆叠视觉令牌在 LMMs 中的惊人简洁和高效

BriefGPT - AI 论文速递 ·

多模式大型语言模型在预测推理方面的能力尚未得到充分探索。研究者引入了一个新的基准测试，评估这些模型在不同情境下的预测推理能力。通过实验证实了基准测试和评估方法的合理性，并揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。这个基准测试为多模式大型语言模型提供了一个标准化的评估框架，并促进了更先进的模型的发展。

视频 - LMMs 的复杂推理与鲁棒性评估套件

BriefGPT - AI 论文速递 ·

研究发现，当LLM（GPT-4）只有对象检测和分割视觉模型的访问权限时，它可以直接预测操作技能的密集序列的末端执行器姿态。LLMs具备理解低级机器人控制的能力，并能检测到失败并重新规划轨迹。

利用 YOLO-World 和 GPT-4V LMMs 在无人机图像中实现零样本人员检测和动作识别

BriefGPT - AI 论文速递 ·

开源音频工作站：录制、编辑、混合音频的理想选择

开源服务指南 ·

多模态大模型（LMMs）不仅拥有大语言模型（LLMs）的特点，还拓宽了其多感官技能，例如视觉理解，从而实现了更强的通用智能。本文深入探索并分析了最新的 GPT-4V(ision) 模型，旨在加深我们对 LMMs 的认识。我们的分析重点是 GPT-4V 能够完成的各种有趣任务，通过一系列精心设计的测试样本，来检验 GPT-4V...

多模态大模型（LMMs）的曙光：初探 GPT-4V(ision)[译]

宝玉的分享 ·

本文介绍了一种新型多模态大型语言模型Cheetah，通过智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，在复杂的纷繁视觉语言指令中达到了I4中所有任务的零样本表现的最新水平，并具有竞争力的性能。

LMMs 初探：与 GPT-4V (ision) 的初步探索

BriefGPT - AI 论文速递 ·