小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究探讨多模态基础模型在自主驾驶中的响应能力,特别是在分布外情境下的表现。通过Robusto-1数据集,发现人类与视觉语言模型在认知层面上的一致性与差异性与提问类型密切相关。

Robusto-1 Dataset: Comparing Human and Visual Language Model Performance in Real-World Out-of-Distribution Autonomous Driving in Peru

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究分析了多模态基础模型的内部表示,探讨了文本与语音的语义等效性。研究发现,跨模态表示逐渐融合,文本与语音的长度适配对减少差距至关重要,且推动低资源语言的发展具有潜力。

How Do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

本研究提出了一种新方法,结合多模态基础模型和视频扩散技术,以提高四维动态物理场景模拟的准确性。通过图像查询识别材料类型并初始化参数,利用视频扩散和可微分材料点方法细化材料参数,实现对真实场景动态交互的精准预测与逼真模拟。

Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion in 4D Dynamic Physical Scene Simulation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本文评估了多模态基础模型在具身任务规划方面的性能,并展示了它们的能力和局限性。提出了一个名为MFE-ETP的新基准,通过此基准评估了几种最先进的多模态基础模型,发现它们落后于人类表现。MFE-ETP是一个高质量、大规模、具有挑战性的与现实任务相关的基准。

HAPFI:基于融合信息的历史感知计划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

OpenMEDLab是一个开放源代码平台,用于多模态基础模型。它集成了前沿临床和生物信息学应用的大型语言和视觉模型的解决方案,并利用大规模多模态医学数据构建领域特定的基础模型。该平台还提供了各种医学图像模态、临床文本和蛋白工程等领域的预训练基础模型,并在各种基准测试中展示了激动人心的竞争结果。欢迎医学人工智能领域的研究人员不断为OpenMEDLab贡献前沿的方法和模型。

OpenMEDLab:一个面向医学领域的开源多模态基础模型平台

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z

该论文介绍了一种名为“元提示”的新技术,它在大型语言模型、多模态基础模型和人工智能系统中具有重要应用。该技术基于类型理论和范畴论,注重信息的结构和语法,提供了一种超越传统方法的框架。论文详细阐述了“元提示”的定义,并展示了它在不同人工智能应用中的优势。此外,论文还将“元提示”扩展到复杂推理领域,并将其推广到多模态基础模型设置中。该技术有望处理复杂多方面的数据。

元提示:用任务无关的支架增强语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-23T00:00:00Z

该论文介绍了一种名为“元提示”的新技术,它在大型语言模型、多模态基础模型和人工智能系统中具有广泛的应用。该技术基于类型理论和范畴论,注重信息的结构和语法,提供了一种超越传统方法的框架。论文详细阐述了“元提示”的定义,并展示了它在不同人工智能应用中的优势。此外,论文还将“元提示”扩展到复杂推理领域,并将其推广到多模态基础模型设置中。这一技术的推广解决了整合不同数据类型的挑战,展示了处理复杂多方面数据的潜力。

AGI 系统的元提示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-20T00:00:00Z

该文介绍了一种新的跨模态语义过滤(CMSF)方法,用于解决语音-视觉分割(AVS)中的问题。该方法利用现有的多模态基础模型来准确地关联潜在的音频-掩码对,并在复杂情景中的多个听觉对象上表现优异,特别是在重叠前景对象方面表现困难的情况下,仍能准确地分割重叠的听觉对象。

利用基础模型进行无监督音频 - 视觉分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码