小红花·文摘

刚刚，国产AI自己造了AI，全球首例！

量子位 ·

本文提出CM3AE预训练框架，旨在解决事件数据与RGB帧之间的联系不足问题。通过多模态融合重建模块和对比学习策略，增强了跨模态理解能力。实验结果表明，该方法在多项任务中表现优异。

CM3AE: A Unified RGB Frame and Event-Voxel/Frame Pre-training Framework

BriefGPT - AI 论文速递 ·

本研究提出了一种新的序列推荐预训练框架PRECISE，旨在解决推荐系统在长尾商品和冷启动场景中的不足。该框架结合协同信号和语义信息，有效捕捉用户兴趣并转移到目标场景。实验结果显示，PRECISE在多个数据集上表现优异。

PRECISE: Pre-training Sequential Recommenders Based on Collaborative and Semantic Information

BriefGPT - AI 论文速递 ·

本研究提出了一种新的时间事件预训练框架，解决了3D医学成像模型在捕捉疾病相关生物标志物时缺乏时间上下文的问题。通过利用纵向电子健康记录进行大规模时间监督，显著提升了8个基准任务的预测性能。

Temporal Event Pretraining for 3D Medical Imaging

BriefGPT - AI 论文速递 ·

本研究提出了课程掩蔽（CurrMask）预训练框架，旨在解决离线强化学习中技能学习的复杂度平衡问题，通过动态调整掩蔽方案，提升不同复杂度技能的学习效果。

Learning Diverse Skills through Curriculum Masking

BriefGPT - AI 论文速递 ·

本文探讨了多模态大型语言模型在视觉知识传输和视觉数据识别方面的能力。研究表明，结合视觉和文本数据后，模型在细粒度图像理解和低层次视觉感知任务中表现显著提升。新型模型架构和预训练框架展示了多模态学习的潜力和有效性。

文本字符串中的视觉感知

BriefGPT - AI 论文速递 ·

本文分析了基于自主学习的图神经网络模型的广义化和可扩展性，提出了图基础模型（GFM）及其关键特征，探讨了预训练框架和个性化推荐方法，强调了在不同任务中的性能提升和训练效率，并解决了跨结构模式图的挑战，推动了未来研究方向。

GraphFM：一种可扩展的多图预训练框架

BriefGPT - AI 论文速递 ·

CommerceMM 是一种多模态模型，具备商业主题理解能力，支持图像-文本检索等多种任务。UNIMO 是统一的单模态预训练架构，提升视觉和文本理解。i-Code 提供自我监督的预训练框架，结合视觉、语音和语言模态。此外，研究提出了 OmniBind 框架，解决模态组合不匹配问题，提升多模态学习性能。

探索全模态大规模预训练的极限

BriefGPT - AI 论文速递 ·

ProtChatGPT 和 ProtLLM 是用于蛋白质研究的先进语言模型，能够处理蛋白质结构与自然语言的复杂输入。这些模型通过构建大规模数据集和创新的预训练框架，在蛋白质理解和生成任务上表现出色，提供准确的功能预测，推动蛋白质科学的发展。

ProtT3: 基于文本的蛋白质理解的蛋白质到文本生成

BriefGPT - AI 论文速递 ·

本文提出了一种知识增强的对比视觉语言预训练框架（KoBo），将临床知识融入视觉语言学习中，以提升分类和分割任务的性能。同时，研究提出了COSMO方法，解决虚假负样本问题，强调其在视觉语言预训练中的重要性。此外，比较了对比预训练与图像字幕策略，发现后者同样有效。整体上，研究展示了多模态学习在视觉与语言任务中的优势与挑战。

FFF: 修正有缺陷的基础对比预训练会得到非常强大的视觉 - 语言模型

BriefGPT - AI 论文速递 ·

VaLM是一种预训练框架，通过视觉增强语言建模提高多模态语言建模性能。VaLM在常识推理任务中表现出色，优于强语言和视觉语言基线。

层次化多模态预训练以理解视觉丰富的网页

BriefGPT - AI 论文速递 ·

VaLM是一种预训练框架，通过视觉增强语言建模，提高多模态语言建模的性能。VaLM在常识推理任务中表现出色，优于强语言和视觉语言基线。

评估视觉语言模型的图像评论能力

BriefGPT - AI 论文速递 ·

本研究介绍了一种新的基于图形的分子数据自我监督学习方法MGSSL，通过自生成基元的预训练框架，捕获分子图中的丰富信息，并在下游基准任务中表现优于最先进的基线。

基于图结构学习的分子属性预测

BriefGPT - AI 论文速递 ·

利用多模态信息的视觉语言预训练（VLP）在自然领域的视觉识别和胸部 X 射线（CXR）的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架，旨在充分利用多个源 CXRs 的协作优势，同时减少源异质性的负面影响。

UniChest: 多源胸部 X 射线分级的征服和分割预训练

BriefGPT - AI 论文速递 ·

VaLM是一种预训练框架，使用视觉增强语言建模，结合图像检索模块和视觉知识融合层，可以参考文本和图像的视觉知识进行多模态语言建模。在常识推理任务中表现出色，颜色、大小和形状方面的性能优于强语言和视觉语言基线。

HallusionBench: 视觉与图像上下文推理基准测试，对 GPT-4V (ision)，LLaVA-1.5 和其他多模态模型构成挑战

BriefGPT - AI 论文速递 ·

本文介绍了一种新的预训练框架DiffCLIP，用于减小视觉分支中的域间差异，并引入样式提示生成模块，用于少样本任务。在多个数据集上进行实验，表明DiffCLIP具有强大的3D理解能力，特别是在零样本分类方面表现出色。

稳定扩散对三维场景了解多少？

BriefGPT - AI 论文速递 ·

该研究提出了一种名为MGSSL的基于图形的自我监督学习方法，用于分子数据。他们使用自生成基元的预训练框架来捕获分子图中的信息，并在不同的下游基准任务上进行了广泛实验，表明该方法优于所有最先进的基线。

基于片段的分子图预训练与微调

BriefGPT - AI 论文速递 ·

VaLM是一种预训练框架，使用视觉增强语言建模，通过图像检索模块检索相应图像，并使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识。VaLM在常识推理任务中表现出色，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

ReForm-Eval: 通过任务导向基准的统一重新制定评估大型视觉语言模型

BriefGPT - AI 论文速递 ·

该研究提出了一种名为MGSSL的基于图形的分子数据自我监督学习方法，使用自生成基元的预训练框架来捕获分子图信息，并在不同的下游基准任务上进行了广泛实验，表明其优于所有最先进的基线。

MHG-GNN：分子超图语法与图神经网络的组合

BriefGPT - AI 论文速递 ·

VaLM是一种预训练框架，使用视觉增强语言建模，结合图像检索模块和视觉知识融合层，可以参考文本和图像的视觉知识。在常识推理任务中表现出色，颜色、大小和形状方面的性能优于强语言和视觉语言基线。

无需进一步训练的预训练基础模型应对 VQA

BriefGPT - AI 论文速递 ·