小红花·文摘

别让AI一上来就“进厂打螺丝”：智源悟界·Orca要先教模型理解世界如何变化

量子位 ·

$HTD——基于触觉预测的人形行走-操作框架：融合视觉、本体感知、力反馈、触觉，同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量(可给面试者递杯咖啡)$

HTD——基于触觉预测的人形行走-操作框架：融合视觉、本体感知、力反馈、触觉，同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量(可给面试者递杯咖啡)

结构之法算法之道 ·

文心4.5系列模型正式开源，包含10款模型，支持多模态学习，提升文本和视觉理解能力。模型在多个基准测试中表现优异，已开源至Hugging Face和GitHub，提供高效的训练和推理框架，支持多种硬件部署。

文心4.5系列模型，正式开源！

百度大脑 ·

计算机视觉的最新进展：生成模型、多模态学习、场景理解与鲁棒性

DEV Community ·

CtrlSynth：可控图像-文本合成用于数据高效的多模态学习

Apple Machine Learning Research ·

人工智能的进展与挑战：近期研究的综合分析

DEV Community ·

本研究提出了Sat2Sound，一个用于声景映射的多模态表示学习框架。该框架通过视觉-语言模型生成声景描述，并利用对比学习实现卫星图像与音频的跨模态检索，展示了新的声景合成应用，提供沉浸式声学体验。

Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping

BriefGPT - AI 论文速递 ·

该研究探讨了多模态学习中添加和缺失模态对模型性能和公平性的影响。结果表明，添加新模态通常能提升模型性能，但可能影响公平性；而缺失模态则会导致性能和公平性双双下降，突显了实际应用中的鲁棒性问题。

The Multimodal Paradox: How Adding and Missing Modalities Affect Bias and Performance in Multimodal AI

BriefGPT - AI 论文速递 ·

本研究提出了一种改进方法，通过对齐预训练模型，提高了多模态学习中Transformer模型的效率，显著缩短了训练和推理时间，具有重要意义。

The Platonic Foundation of Efficient Multimodal Language Models

BriefGPT - AI 论文速递 ·

本研究提出RGB-Th-Bench，评估视觉语言模型对RGB-热成像的理解能力，填补多模态理解领域的空白。研究提供1400多个专家注释的问题，显示先进模型在热成像理解上存在显著差距，呼吁推动多模态学习。

RGB-Th-Bench：视觉与热成像理解的密集基准

BriefGPT - AI 论文速递 ·

本研究提出了一种信息获取调节（InfoReg）的方法，旨在解决多模态学习中的信息获取不平衡问题。该方法通过减缓信息充足模态的获取速度，促进信息不足模态的学习，从而实现更均衡的学习过程，提升多模态网络的整体性能。

Adaptive Unimodal Regulation for Balanced Multimodal Information Acquisition

BriefGPT - AI 论文速递 ·

大型语言模型如何理解图像：看得见的人工智能背后的秘密

DEV Community ·

本研究提出了DocVideoQA任务及其数据集，旨在解决文档中心视频理解中的数据稀缺和复杂性问题。通过引入DV-LLaMA模型，利用多模态学习显著提升了理解能力，测试结果优于现有模型。

DocVideoQA: Achieving Comprehensive Understanding of Document-Centric Videos through Question Answering

BriefGPT - AI 论文速递 ·

本研究提出了一种名为BREEN的无编码器多模态学习架构，旨在减少训练数据需求。BREEN通过可学习查询和图像专家提高了性能，为传统编码器方法提供了有效的替代方案。

Data-Efficient Encoder-Free Multimodal Learning: BREEN and Learnable Queries

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法——数据感知单模采样，以解决多模态学习中的模态失衡问题。实验结果表明，该方法的性能优于多种基线。

Data-Aware Single-Modal Sampling for Rebalancing Multimodal Learning

BriefGPT - AI 论文速递 ·

本研究提出统一单模态适应（U2A）方法，旨在解决多模态学习中的复杂模型和训练策略问题。通过低秩适应联合微调预训练编码器，显著减少可学习参数，并引入掩码标记处理缺失模态。评估结果表明，U2A在多种设置中表现优异。

U2A: Unified Unimodal Adaptation for Robust and Efficient Multimodal Learning

BriefGPT - AI 论文速递 ·

本文探讨了多模态学习中的数据集，指出了研究空白，并分析了数据集在训练和应用中的重要性，强调其对模型性能评估的影响。研究表明，克服这些挑战将推动人工智能的发展。

A Review of Large Multimodal Model Datasets, Application Categories, and Classification Methods

BriefGPT - AI 论文速递 ·

本研究探讨了结合术前CT与术中CBCT数据以改善分割精度的方法。提出的多模态学习方法在对齐不完美的情况下显著提升了18种设置中的分割性能，显示出其潜在应用价值。

Preliminary Study on Improving Segmentation by Combining Preoperative CT and Intraoperative CBCT Using Synthetic Data

BriefGPT - AI 论文速递 ·

本文提出了一种新的人物再识别方法，结合图像和自然语言描述，通过视觉和语言模型显著提升性能。研究表明，自然语言作为训练监督的有效性，并在多个基准测试中取得优异结果。新框架PLIP和方法π-VL通过细粒度特征学习和多模态学习，进一步增强了再识别效果，尤其在挑战性数据集上表现突出。

大型视觉-语言模型与行人重识别的结合

BriefGPT - AI 论文速递 ·

本文提出KDC-MAE架构，通过结合对比学习、自蒸馏和掩蔽数据建模，显著提升自监督学习中的多模态学习效果。

Knowledge Distillation Contrastive Masked Autoencoder

BriefGPT - AI 论文速递 ·