小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了大型多模态模型(LMMs)在科学问题解决中的能力,提出了SciVerse基准测试,揭示了其在科学知识理解和推理方面的局限性,旨在促进未来的发展。

SciVerse: Revealing Knowledge Understanding and Visual Reasoning of Large Multi-modal Models in Multi-modal Scientific Problems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

本研究评估了大型多模态模型(LMMs)在视觉类比推理上的性能,并与儿童和成年人进行比较。结果显示,LMMs在量化变化方式并应用于新对象时存在困难,而儿童和成年人在类比推理能力上更强。这突显了在二维图像和文本数据上训练模型的局限性。

KiVA:用于测试大型多模态模型的儿童启发式视觉类比

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

介绍了Visual Haystacks(VHs)Benchmark,用于评估大型多模态模型(LMMs)在处理大量图像数据时的能力。发现现有的LMMs在处理大量图像时存在困难,尤其是在存在视觉干扰的情况下。介绍了名为MIRAGE的新训练范式,通过压缩编码、使用检索器和增加多图像训练数据来改善MIQA任务的性能。提出了使用Visual Haystacks框架来评估模型性能的建议。

我们准备好进行多图像推理了吗?推出VHs:视觉干草堆基准!

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2024-07-20T09:00:00Z

本文讨论了大型多模态模型(LMM)的最新研究进展,提出了新架构Lumen,显著提升了感知能力。同时,研究推出了MMStar基准,以评估多模态能力并解决数据泄漏问题。通过结合视觉和语言任务,开发了VisionLLM v2,增强了模型的可解释性和性能,展示了多模态学习的潜力。

Cambrian-1:全面开放、以视觉为中心的多模态 LLMs 研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z
《针对智能摄像头与智能家居厂商的视频分析》之典型应用场景和核心特性

随着人工智能技术的发展,视频分析在智能摄像头和智能家居等领域得到广泛应用。大型多模态模型具有无需手工特征工程、强大的泛化能力、多模态融合和上下文建模能力等优势,可以提供视频事件分析、警报和消息推送、视频总结与Vlog生成、基于视频内容的问答等功能。通过亚马逊的IoT Greengrass和Kinesis Video Streams等服务,可以实现视频分析和边缘端事件筛选。利用大语言模型的Agent可以实现消息推送和视频内容VQA等功能。

《针对智能摄像头与智能家居厂商的视频分析》之典型应用场景和核心特性

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-06-03T06:55:01Z

该研究提出了一种名为多模态图像语义压缩(MISC)的方法,采用大型多模态模型(LMM)来平衡传统自然感知图像和人工智能生成图像的压缩,实现了一致性和感知结果的优化,节省了50%的比特率,并在存储和通信领域具有强大的应用潜力。

MISC:基于大型多模态模型驱动的超低比特率图像语义压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-26T00:00:00Z

研究评估了多个开源和闭源模型,并开发了一种对比的思维链(CoCoT)启发方法来增强大型多模态模型(LMMs)的性能。实验结果展示了CoCoT在增强多模态模型的多图像理解能力方面的熟练度。

大型多模态模型中的支架坐标促进视觉 - 语言协调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z

本文研究了大型多模态模型 (LMMs),特别是 GPT-4V (ision) 和 Gemini 的最新进展。通过在最新的 MIND2WEB 基准上进行评估,展示了 GPT-4V 在网络代理中的巨大潜力。然而,转化仍然是一个主要的挑战,现有的 LMM 转化策略并不适用于网络代理。

VisualWebArena: 在现实视觉网络任务中评估多模态代理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-24T00:00:00Z

研究评估了多个开源和闭源模型,并开发了一种对比的思维链(CoCoT)启发方法来增强大型多模态模型(LMMs)的性能。实验结果展示了CoCoT在增强多模态模型的多图像理解能力方面的熟练度。

推进大型多模型:明确的推理链与视觉问题生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-18T00:00:00Z

本文研究了大型多模态模型 (LMMs),特别是 GPT-4V (ision) 和 Gemini 的最新进展,扩展了多模态模型的能力边界。提出了SEEACT,一种利用LMMs的通用网络代理,可以根据自然语言指令在任何给定的网站上完成任务。通过在最新的MIND2WEB基准上进行评估,展示了GPT-4V在网络代理中的巨大潜力。转化仍然是一个主要的挑战,现有的LMM转化策略并不适用于网络代理,需要进一步改进。

GPT-4V 是一种通用的互联网代理系统,具有视觉能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-03T00:00:00Z

LLaVA-Plus是一个通用的多模态助手,扩展了大型多模态模型的功能。它通过激活相关工具和维护预训练的视觉和视觉语言模型的技能存储库来实现实际任务。实证结果表明,LLaVA-Plus在现有功能上优于LLaVA,并展示出新的功能。它在图像查询和人工智能与人类交互过程中具有独特之处,提高了工具使用性能并实现了新的场景。

CLOVA:带有工具使用和更新的封闭循环视觉助手

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-18T00:00:00Z

研究人员创造了一个用于基础视觉聊天的数据集,并引入了一个名为Grounding-Bench的基准。他们提出了一种模型设计,通过将分割模型与语言模型相连接来支持GVC和各种类型的视觉提示。实验结果表明,他们的模型在Grounding-Bench上表现优异,并在经典的基准测试中也取得了有竞争力的性能。

LLaVA-Grounding: 大型多模态模型的基于视觉的聊天

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-05T00:00:00Z

大型多模态模型 (LMMs) 在为盲人或低视力用户提供自动视觉辅助方面具有潜力。通过实证评估 CLIP,在零样本分类任务中测试了 25 个 CLIP 变体,发现其在盲人用户捕获的图像上的准确性平均低了 15 个百分点。使用仅有 5 张图像进行少样本学习可以在某些情况下缓解 BLV 用户的 CLIP 的服务质量差异。

解释 CLIP 在盲 / 低视能用户数据上的表现差异

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-29T00:00:00Z

该研究创建了 MathVista 基准测试,评估了11种不同模型在数学推理和视觉背景下的能力,为未来通用 AI 代理的发展提出了挑战。

MathVista: 在视觉背景中评估基础模型的数学推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码