BriefGPT - AI 论文速递 ·

CMAL：一种新颖的跨模态关联学习框架用于视觉-语言预训练

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了“文兰”项目的研究进展，重点在于通过BriVL模型和跨模态对比学习实现多模态预训练。团队建立了中文多源图像文本语料库RUC-CAS-WenLan，实验结果表明BriVL在多项任务中优于UNITER和CLIP。此外，提出了多种预训练方法，如SemVLP、MVPTR和TCL，在图像-文本检索和视觉问答等任务中表现出色。

🎯

关键要点

文兰项目通过BriVL模型和跨模态对比学习实现多模态预训练。
建立了中文多源图像文本语料库RUC-CAS-WenLan，用于BriVL模型的预训练。
BriVL模型在多项任务中表现优于UNITER和OpenAI CLIP。
提出了SemVLP预训练方法，通过单流和双流预训练相结合，实现跨模态表示对齐。
MVPTR方法强调多模态、多层次的学习，促进概念表示的学习。
TCL框架通过交叉模式对齐和自我监督提高学习代表性，在图像-文本检索和视觉问答中表现优异。
提出跨模态CutMix（CMC）数据增强方法，支持无对齐图像文本对的学习。
VLMixer结合CMC与对比学习，超越了以前的无对齐VLP方法。
COOKIE方法提高跨模态检索的计算效率和统计指标。
DCP方法实现视觉和语言之间的灵活相互作用，表现出超凡的少样本泛化性能。
基于intra-modal和cross-modal rank loss的策略提升了细粒度任务的性能。
语义增强的视觉-语言预训练模型在多个下游任务中取得了先进性能。
AlignCLIP通过共享多模态编码器参数和内部模态分离，减少模态间隙，提升了跨模态对齐性能。

❓

延伸问答

BriVL模型的主要优势是什么？

BriVL模型在多项任务中表现优于UNITER和OpenAI CLIP。

文兰项目使用了什么样的语料库？

文兰项目建立了中文多源图像文本语料库RUC-CAS-WenLan。

SemVLP预训练方法的特点是什么？

SemVLP通过单流和双流预训练相结合，实现跨模态表示对齐。

TCL框架如何提高学习代表性？

TCL框架通过交叉模式对齐和自我监督来提高学习的代表性。

VLMixer方法的创新之处在哪里？

VLMixer结合了跨模态CutMix与对比学习，超越了以前的无对齐VLP方法。

DCP方法在少样本学习中表现如何？

DCP方法在少样本泛化性能上表现出色，并具有良好的域适应能力。

🏷️

继续阅读

全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
23学习周刊-总第266期-2026年第23周
本周刊聚焦运维、Go语言和Vue技术生态，推荐多个优秀项目，包括基于SwiftUI的Mac终端应用muxy、轻量级剪贴板管理器Buffer和Rust开发的...
使用yii3实现一个微框架
本文介绍了如何使用 Yii3 框架构建微框架，包括创建项目目录、安装依赖、编写入口文件 index.php、配置事件监听器和路由。示例路由涵盖首页、健康检...
回归晨跑
作者分享了重拾晨跑的经历，探讨生物钟与运动的关系。尽管初期脚踝疼痛，晨跑改善了睡眠质量和生活节奏，恢复了阅读兴趣和工作动力。通过调整作息和锻炼，作者意识到...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。