小红花·文摘

本研究探讨多模态基础模型在自主驾驶中的响应能力，特别是在分布外情境下的表现。通过Robusto-1数据集，发现人类与视觉语言模型在认知层面上的一致性与差异性与提问类型密切相关。

Robusto-1 Dataset: Comparing Human and Visual Language Model Performance in Real-World Out-of-Distribution Autonomous Driving in Peru

BriefGPT - AI 论文速递 ·

本研究分析了多模态基础模型的内部表示，探讨了文本与语音的语义等效性。研究发现，跨模态表示逐渐融合，文本与语音的长度适配对减少差距至关重要，且推动低资源语言的发展具有潜力。

How Do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，结合多模态基础模型和视频扩散技术，以提高四维动态物理场景模拟的准确性。通过图像查询识别材料类型并初始化参数，利用视频扩散和可微分材料点方法细化材料参数，实现对真实场景动态交互的精准预测与逼真模拟。

Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion in 4D Dynamic Physical Scene Simulation

BriefGPT - AI 论文速递 ·

本文探讨了多模态基础模型在地理任务中的应用，指出大型语言模型在某些情况下优于特定任务模型。SkySense和EarthGPT在遥感图像解释和城市问题回答方面表现出色。研究提出了多视角学习和共享特征学习模型，提升了遥感数据处理效果，DiffusionSat在卫星图像生成方面表现突出。

在多传感器地理空间基础模型中连接远程传感器

BriefGPT - AI 论文速递 ·

OpenMEDLab是一个开放源代码平台，用于多模态基础模型。它集成了前沿临床和生物信息学应用的大型语言和视觉模型的解决方案，并利用大规模多模态医学数据构建领域特定的基础模型。该平台还提供了各种医学图像模态、临床文本和蛋白工程等领域的预训练基础模型，并在各种基准测试中展示了激动人心的竞争结果。欢迎医学人工智能领域的研究人员不断为OpenMEDLab贡献前沿的方法和模型。

OpenMEDLab：一个面向医学领域的开源多模态基础模型平台

BriefGPT - AI 论文速递 ·

该论文介绍了一种名为“元提示”的新技术，它在大型语言模型、多模态基础模型和人工智能系统中具有重要应用。该技术基于类型理论和范畴论，注重信息的结构和语法，提供了一种超越传统方法的框架。论文详细阐述了“元提示”的定义，并展示了它在不同人工智能应用中的优势。此外，论文还将“元提示”扩展到复杂推理领域，并将其推广到多模态基础模型设置中。该技术有望处理复杂多方面的数据。

该论文介绍了一种名为“元提示”的新技术，它在大型语言模型、多模态基础模型和人工智能系统中具有广泛的应用。该技术基于类型理论和范畴论，注重信息的结构和语法，提供了一种超越传统方法的框架。论文详细阐述了“元提示”的定义，并展示了它在不同人工智能应用中的优势。此外，论文还将“元提示”扩展到复杂推理领域，并将其推广到多模态基础模型设置中。这一技术的推广解决了整合不同数据类型的挑战，展示了处理复杂多方面数据的潜力。

AGI 系统的元提示

BriefGPT - AI 论文速递 ·

该文介绍了一种新的跨模态语义过滤（CMSF）方法，用于解决语音-视觉分割（AVS）中的问题。该方法利用现有的多模态基础模型来准确地关联潜在的音频-掩码对，并在复杂情景中的多个听觉对象上表现优异，特别是在重叠前景对象方面表现困难的情况下，仍能准确地分割重叠的听觉对象。

利用基础模型进行无监督音频 - 视觉分割

BriefGPT - AI 论文速递 ·

Robusto-1 Dataset: Comparing Human and Visual Language Model Performance in Real-World Out-of-Distribution Autonomous Driving in Peru

How Do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations

Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion in 4D Dynamic Physical Scene Simulation

在多传感器地理空间基础模型中连接远程传感器

OpenMEDLab：一个面向医学领域的开源多模态基础模型平台

元提示：用任务无关的支架增强语言模型

AGI 系统的元提示

利用基础模型进行无监督音频 - 视觉分割