小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

当前顶尖的LMM在ZeroBench基准测试中表现不佳,20多个模型均得零分。ZeroBench包含100个挑战性问题,考察模型的视觉理解和推理能力,揭示了现有基准的不足。

这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

机器之心
机器之心 · 2025-02-18T04:34:19Z
Meta AI 发布 Apollo:用于视频理解的全新 Video-LMM 大型多模态模型系列

Meta AI与斯坦福大学联合开发的Apollo视频多模态模型,旨在提升视频理解能力。Apollo通过优化设计和双视觉编码器,支持处理最长一小时的视频,性能超越多种大型模型,为视频问答和内容分析提供有效解决方案。

Meta AI 发布 Apollo:用于视频理解的全新 Video-LMM 大型多模态模型系列

实时互动网
实时互动网 · 2024-12-18T03:50:26Z

该研究解决了在低资源环境下有效识别有害表情包的问题,提出了一种基于代理的框架,利用少量标注样本的内外分析。通过引入大型多模态模型(LMM)的推理能力,研究展示了该方法在检测有害表情包方面的优越性能,具有重要的实用价值。

基于LMM代理的低资源有害表情包检测研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-08T00:00:00Z

本研究提出LatteCLIP,一种无监督方法,通过生成文本描述来微调大型视觉语言模型,无需人工标注。在10个领域数据集上,LatteCLIP优于现有无监督方法。

LatteCLIP:通过LMM合成文本进行无监督CLIP微调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究提出了一个名为SAT的模型,可在医疗场景中通过文本提示对任意物体进行分割。研究贡献包括整合多个知识源构建多模态医学知识树,使用大规模分割数据集进行训练,提出通用的分割模型,使用医学术语进行提示,并通过SAT-Nano模型对31个分割数据集进行评估。结果显示与36个专家nnUNets的性能相当。研究将公布代码和模型,并提供SAT-Ultra模型在更多数据集上进行训练。

TG-LMM:通过文本引导的大型多模态模型提高医学影像分割精度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

本文讨论了将大模型视为操作系统和廉价诱导需求的概念。大模型可以像操作系统一样使用,核心是LMM,内存是上下文窗口。廉价诱导需求悖论指出,当某物变得更高效时,人们会消费更多。文章还介绍了一些新功能和开源软件。最后,作者分享了维护副项目的经历和教训。

智变时代 - FAV0周刊#012

DEV Community
DEV Community · 2024-08-25T12:47:43Z

GPT-4V是一种结合了文本和图像处理能力的AI模型,可用于图像描述和创意设计等应用。然而,它在准确性和幻觉方面仍存在局限性。它适用于自动图像筛选和创意工作,但不适用于精确的文本相关任务或复杂的图像。GPT-4V能够识别多个图像,并在医学成像和皮肤疾病诊断等各种场景中进行了测试。由于隐私问题,它不适用于人脸识别。

多模态GPT-V出世!36种场景分析ChatGPT Vision能力,LMM将全面替代语言大模型?

京东科技开发者
京东科技开发者 · 2024-06-28T08:52:24Z

本研究提出了一种新的方法来解决干扰图像检测的任务,通过利用大型多模型模型中编码的知识,提取通用语义描述和引发的情感,并利用 CLIP 的文本编码器获取文本嵌入。最终,将这些文本嵌入与相应的 CLIP 图像嵌入一起用于干扰图像检测任务,提高了分类准确度。

利用 LMM 激发的情感嵌入进行干扰图像检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-18T00:00:00Z

我们提出了一种新的方法来从长描述中密集地连接视觉实体,利用大型多模态模型提取语义名词,利用无类别分割模型生成实体级分割。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征,比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。实验结果表明,该方法在全景叙事连接、指称表达分割和全景分割任务上表现卓越。

基于 LMM 的知识在图像分类任务中的利用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

A-Bench是一个用于评估人工智能生成的图像的基准测试,旨在提升评估过程并改进生成质量。测试遵循高水平的语义理解和低水平的视觉质量感知原则,并使用各种生成模型和LMMs进行评估。

A-Bench: LMM 在评估 AI 生成图像方面的能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

本文介绍了一种名为LangRepo的语言仓库,用于长文本视频理解。该仓库通过维护简明有结构信息作为可解释的表示,并引入了修剪文本中冗余信息和提取信息的操作。该框架在无监督视觉问答基准测试上表现出最好的性能。

MA-LMM:用于长期视频理解的增强记忆大型多模态模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

本文介绍了一种机器-人类管道,通过使用基于LLM的代理体系结构和将对话与人物和时间事件图进行关联,生成高质量的非常长期的对话。通过人类注释者的检验和编辑,确保对话的长程一致性和对事件图的关联。实验结果表明,LLM在理解冗长对话和长程时间和因果动态方面存在挑战。使用长上下文LLM或RAG等策略可以提供改进,但仍远远落后于人类的性能。

StyleChat: 基于 LMM 的记忆式学习在风格化对话生成中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-18T00:00:00Z

通过使用多模态编码器将开源大语言模型(LLM)与多模态输入指令结合起来,我们提出了 Tool-LMM 系统,使学习的 LLMs 能够意识到多模态输入指令并正确选择匹配功能的工具,实验证明我们的 LMM 能够为多模态指令推荐适当的工具。

Tool-LMM:一个用于工具智能学习的大型多模态模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-19T00:00:00Z

该研究提出了一种新颖的LMM驱动的多模态人工智能,应用于放射治疗中的靶体积轮廓任务,并在乳腺癌放疗靶体积轮廓的背景下进行验证。该模型相比传统的仅视觉AI模型具有明显改进的性能,特别是在具有鲁棒泛化性能和数据效率的方面。这是第一个将临床文本信息整合到放射肿瘤学的靶体积划定中的LMM驱动多模态AI模型。

放射肿瘤学中基于 LLM 的多模态靶体积勾画

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码