当前顶尖的LMM在ZeroBench基准测试中表现不佳,20多个模型均得零分。ZeroBench包含100个挑战性问题,考察模型的视觉理解和推理能力,揭示了现有基准的不足。
Meta AI与斯坦福大学联合开发的Apollo视频多模态模型,旨在提升视频理解能力。Apollo通过优化设计和双视觉编码器,支持处理最长一小时的视频,性能超越多种大型模型,为视频问答和内容分析提供有效解决方案。
该研究解决了在低资源环境下有效识别有害表情包的问题,提出了一种基于代理的框架,利用少量标注样本的内外分析。通过引入大型多模态模型(LMM)的推理能力,研究展示了该方法在检测有害表情包方面的优越性能,具有重要的实用价值。
本研究提出LatteCLIP,一种无监督方法,通过生成文本描述来微调大型视觉语言模型,无需人工标注。在10个领域数据集上,LatteCLIP优于现有无监督方法。
本研究提出了一个名为SAT的模型,可在医疗场景中通过文本提示对任意物体进行分割。研究贡献包括整合多个知识源构建多模态医学知识树,使用大规模分割数据集进行训练,提出通用的分割模型,使用医学术语进行提示,并通过SAT-Nano模型对31个分割数据集进行评估。结果显示与36个专家nnUNets的性能相当。研究将公布代码和模型,并提供SAT-Ultra模型在更多数据集上进行训练。
本文讨论了将大模型视为操作系统和廉价诱导需求的概念。大模型可以像操作系统一样使用,核心是LMM,内存是上下文窗口。廉价诱导需求悖论指出,当某物变得更高效时,人们会消费更多。文章还介绍了一些新功能和开源软件。最后,作者分享了维护副项目的经历和教训。
GPT-4V是一种结合了文本和图像处理能力的AI模型,可用于图像描述和创意设计等应用。然而,它在准确性和幻觉方面仍存在局限性。它适用于自动图像筛选和创意工作,但不适用于精确的文本相关任务或复杂的图像。GPT-4V能够识别多个图像,并在医学成像和皮肤疾病诊断等各种场景中进行了测试。由于隐私问题,它不适用于人脸识别。
本研究提出了一种新的方法来解决干扰图像检测的任务,通过利用大型多模型模型中编码的知识,提取通用语义描述和引发的情感,并利用 CLIP 的文本编码器获取文本嵌入。最终,将这些文本嵌入与相应的 CLIP 图像嵌入一起用于干扰图像检测任务,提高了分类准确度。
我们提出了一种新的方法来从长描述中密集地连接视觉实体,利用大型多模态模型提取语义名词,利用无类别分割模型生成实体级分割。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征,比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。实验结果表明,该方法在全景叙事连接、指称表达分割和全景分割任务上表现卓越。
A-Bench是一个用于评估人工智能生成的图像的基准测试,旨在提升评估过程并改进生成质量。测试遵循高水平的语义理解和低水平的视觉质量感知原则,并使用各种生成模型和LMMs进行评估。
本文介绍了一种名为LangRepo的语言仓库,用于长文本视频理解。该仓库通过维护简明有结构信息作为可解释的表示,并引入了修剪文本中冗余信息和提取信息的操作。该框架在无监督视觉问答基准测试上表现出最好的性能。
本文介绍了一种机器-人类管道,通过使用基于LLM的代理体系结构和将对话与人物和时间事件图进行关联,生成高质量的非常长期的对话。通过人类注释者的检验和编辑,确保对话的长程一致性和对事件图的关联。实验结果表明,LLM在理解冗长对话和长程时间和因果动态方面存在挑战。使用长上下文LLM或RAG等策略可以提供改进,但仍远远落后于人类的性能。
通过使用多模态编码器将开源大语言模型(LLM)与多模态输入指令结合起来,我们提出了 Tool-LMM 系统,使学习的 LLMs 能够意识到多模态输入指令并正确选择匹配功能的工具,实验证明我们的 LMM 能够为多模态指令推荐适当的工具。
该研究提出了一种新颖的LMM驱动的多模态人工智能,应用于放射治疗中的靶体积轮廓任务,并在乳腺癌放疗靶体积轮廓的背景下进行验证。该模型相比传统的仅视觉AI模型具有明显改进的性能,特别是在具有鲁棒泛化性能和数据效率的方面。这是第一个将临床文本信息整合到放射肿瘤学的靶体积划定中的LMM驱动多模态AI模型。
完成下面两步后,将自动完成登录并继续当前操作。