小红花·文摘

这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

机器之心 ·

Meta AI 发布 Apollo：用于视频理解的全新 Video-LMM 大型多模态模型系列

实时互动网 ·

该研究解决了在低资源环境下有效识别有害表情包的问题，提出了一种基于代理的框架，利用少量标注样本的内外分析。通过引入大型多模态模型（LMM）的推理能力，研究展示了该方法在检测有害表情包方面的优越性能，具有重要的实用价值。

基于LMM代理的低资源有害表情包检测研究

BriefGPT - AI 论文速递 ·

本研究提出LatteCLIP，一种无监督方法，通过生成文本描述来微调大型视觉语言模型，无需人工标注。在10个领域数据集上，LatteCLIP优于现有无监督方法。

LatteCLIP：通过LMM合成文本进行无监督CLIP微调

BriefGPT - AI 论文速递 ·

本研究提出了一个名为SAT的模型，可在医疗场景中通过文本提示对任意物体进行分割。研究贡献包括整合多个知识源构建多模态医学知识树，使用大规模分割数据集进行训练，提出通用的分割模型，使用医学术语进行提示，并通过SAT-Nano模型对31个分割数据集进行评估。结果显示与36个专家nnUNets的性能相当。研究将公布代码和模型，并提供SAT-Ultra模型在更多数据集上进行训练。

TG-LMM：通过文本引导的大型多模态模型提高医学影像分割精度

BriefGPT - AI 论文速递 ·

本文讨论了将大模型视为操作系统和廉价诱导需求的概念。大模型可以像操作系统一样使用，核心是LMM，内存是上下文窗口。廉价诱导需求悖论指出，当某物变得更高效时，人们会消费更多。文章还介绍了一些新功能和开源软件。最后，作者分享了维护副项目的经历和教训。

智变时代 - FAV0周刊#012

DEV Community ·

GPT-4V是一种结合了文本和图像处理能力的AI模型，可用于图像描述和创意设计等应用。然而，它在准确性和幻觉方面仍存在局限性。它适用于自动图像筛选和创意工作，但不适用于精确的文本相关任务或复杂的图像。GPT-4V能够识别多个图像，并在医学成像和皮肤疾病诊断等各种场景中进行了测试。由于隐私问题，它不适用于人脸识别。

多模态GPT-V出世！36种场景分析ChatGPT Vision能力，LMM将全面替代语言大模型？

京东科技开发者 ·

本研究提出了一种新的方法来解决干扰图像检测的任务，通过利用大型多模型模型中编码的知识，提取通用语义描述和引发的情感，并利用 CLIP 的文本编码器获取文本嵌入。最终，将这些文本嵌入与相应的 CLIP 图像嵌入一起用于干扰图像检测任务，提高了分类准确度。

利用 LMM 激发的情感嵌入进行干扰图像检测

BriefGPT - AI 论文速递 ·

我们提出了一种新的方法来从长描述中密集地连接视觉实体，利用大型多模态模型提取语义名词，利用无类别分割模型生成实体级分割。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征，比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。实验结果表明，该方法在全景叙事连接、指称表达分割和全景分割任务上表现卓越。

基于 LMM 的知识在图像分类任务中的利用

BriefGPT - AI 论文速递 ·

A-Bench是一个用于评估人工智能生成的图像的基准测试，旨在提升评估过程并改进生成质量。测试遵循高水平的语义理解和低水平的视觉质量感知原则，并使用各种生成模型和LMMs进行评估。

A-Bench: LMM 在评估 AI 生成图像方面的能力

BriefGPT - AI 论文速递 ·

本文介绍了一种名为LangRepo的语言仓库，用于长文本视频理解。该仓库通过维护简明有结构信息作为可解释的表示，并引入了修剪文本中冗余信息和提取信息的操作。该框架在无监督视觉问答基准测试上表现出最好的性能。

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

BriefGPT - AI 论文速递 ·

本文介绍了一种机器-人类管道，通过使用基于LLM的代理体系结构和将对话与人物和时间事件图进行关联，生成高质量的非常长期的对话。通过人类注释者的检验和编辑，确保对话的长程一致性和对事件图的关联。实验结果表明，LLM在理解冗长对话和长程时间和因果动态方面存在挑战。使用长上下文LLM或RAG等策略可以提供改进，但仍远远落后于人类的性能。

StyleChat: 基于 LMM 的记忆式学习在风格化对话生成中的应用

BriefGPT - AI 论文速递 ·

通过使用多模态编码器将开源大语言模型（LLM）与多模态输入指令结合起来，我们提出了 Tool-LMM 系统，使学习的 LLMs 能够意识到多模态输入指令并正确选择匹配功能的工具，实验证明我们的 LMM 能够为多模态指令推荐适当的工具。

Tool-LMM：一个用于工具智能学习的大型多模态模型

BriefGPT - AI 论文速递 ·

该研究提出了一种新颖的LMM驱动的多模态人工智能，应用于放射治疗中的靶体积轮廓任务，并在乳腺癌放疗靶体积轮廓的背景下进行验证。该模型相比传统的仅视觉AI模型具有明显改进的性能，特别是在具有鲁棒泛化性能和数据效率的方面。这是第一个将临床文本信息整合到放射肿瘤学的靶体积划定中的LMM驱动多模态AI模型。

放射肿瘤学中基于 LLM 的多模态靶体积勾画

BriefGPT - AI 论文速递 ·