小红花·文摘

Mamba是一种新型选择性状态空间模型，优化了长序列数据处理，推理速度比Transformer快5倍，支持跨模态应用。Rust实现的Mamba-RS具备高效的推理和训练能力，并支持CUDA加速，适用于多种场景。

【Rust日报】2026-03-21 Mamba-RS: Rust实现的Mamba选择性状态空间模型

Rust.cc ·

武汉人工智能研究院 x Gitee：跨模态智能研发的革新之路

Gitee 官方博客 ·

清华大学、人民大学与字节跳动团队提出了跨分子种类的生成框架UniMoMo，通过统一表示分子片段展示了其在药物设计中的潜力。该框架在多类分子任务中表现优异，验证了跨模态知识迁移的有效性。

入选ICML 2025，清华/人大/字节提出首个跨分子种类统一生成框架UniMoMo，实现多类型药物分子设计

HyperAI超神经 ·

本研究提出了一种新型降维技术AKRMap，旨在解决现有跨模态嵌入可视化方法的不足。实验结果表明，AKRMap在生成更准确和可信的可视化方面优于传统方法。

AKRMap：用于跨模态嵌入可信可视化的自适应核回归

BriefGPT - AI 论文速递 ·

Daanelson在Replicate上发布的Imagebind模型初学者指南

DEV Community ·

本研究提出了一种跨模态注意力机制，旨在解决将触觉与音频整合到机器人模型中的高维问题，识别信息量最大的模态，并训练层次策略以应对复杂的操控任务。

Modal Selection and Skill Segmentation through Cross-Modal Attention

BriefGPT - AI 论文速递 ·

本研究提出FineLIP方法，解决CLIP模型在处理长文本时的局限性，通过细粒度对齐实现文本与图像的跨模态映射，实验结果表明其在长文本检索和生成任务中优于现有方法。

FineLIP: Enhancing CLIP's Capabilities through Fine-Grained Alignment with Longer Text Inputs

BriefGPT - AI 论文速递 ·

本研究提出COSMIC框架，以解决视觉语言模型在新领域测试时的适应性挑战。通过多粒度跨模态语义缓存和图查询机制，显著提高了模型的适应性，实验结果显示在离散分布任务和跨领域生成方面分别提升了15.81%和5.33%。

COSMIC: Clique-Oriented Semantic Multi-Space Integration for Robust CLIP Test-Time Adaptation

BriefGPT - AI 论文速递 ·

本研究提出了一种新的跨模态哈希检索框架PromptHash，旨在解决现有方法在语义保留和信息冗余方面的不足。通过引入亲和提示学习机制和自适应融合架构，该框架显著提升了图像与文本之间的检索性能，尤其在NUS-WIDE数据集上表现突出。

PromptHash: Affinity-Prompted Collaborative Cross-Modal Learning for Adaptive Hashing Retrieval

BriefGPT - AI 论文速递 ·

中山大学与南洋理工大学等团队提出了跨模态因果对齐框架（CRA），旨在提升视频问答的时空定位准确性与可解释性。CRA通过三个模块优化因果推理，克服现有模型的统计偏差问题，已在CVPR 2025接收并开源代码。

CVPR’25跨模态因果对齐，让机器更懂视觉证据丨中大南洋理工等联合开源

量子位 ·

本研究提出了一种新型动态情感识别架构MAVEN，通过双向跨模态注意力机制整合视觉、音频和文本信息，显著提升了情感捕捉能力。实验结果表明，其在真实环境中的表现优于现有技术。

MAVEN：多模态注意力的情感网络

BriefGPT - AI 论文速递 ·

本研究提出了COMODO，一个跨模态自监督蒸馏框架，旨在解决自我中心视频模型在设备识别中的高功耗和隐私问题。COMODO通过无标注数据有效传递视频中的语义知识到IMU，显著提升人类活动分类性能，并展现良好的跨数据集泛化能力。

COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition

BriefGPT - AI 论文速递 ·

本研究提出了一种跨模态知识迁移学习框架（CMKT），有效整合语言知识与语音增强模型，实验结果表明其在多种条件下表现优异。

语言知识迁移学习在语音增强中的应用

BriefGPT - AI 论文速递 ·

Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述

机器之心 ·

本研究提出了一种基于课程学习的跨模态文本-分子训练框架（CLASS），旨在提高训练效率和性能。CLASS在ChEBI-20数据集上表现优异，显著节省了训练时间。

CLASS: Enhancing Cross-Modal Text-Molecule Retrieval Performance and Training Efficiency

BriefGPT - AI 论文速递 ·

本研究提出了一种力与语言的跨模态嵌入方法，旨在改善人机交互中言语与触觉的整合。研究表明，尽管语言与物理力特征不同，但它们可以在统一的潜在空间中量化相互关系，从而实现有效沟通。

力与语言的跨模态嵌入方法用于自然的人机沟通

BriefGPT - AI 论文速递 ·

本研究提出了一种基于视觉语言模型的框架（LVLM4CEC），用于验证新闻中人物、地点和事件等实体的一致性，以对抗虚假信息传播。研究表明，该方法在实体识别上具有更高准确性，尤其在事件和地点验证方面优于传统方法，展示了视觉语言模型在跨模态实体验证中的潜力。

Verifying Cross-modal Entity Consistency in News using Vision-language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法FuSe，通过语言作为跨模态基础，微调通用机器人策略，解决了仅依赖视觉和本体感知的问题。实验结果表明，FuSe在复杂任务中的成功率提高了20%以上，显示出广泛的应用前景。

Beyond Vision: Empowering Generalist Robot Policies with Heterogeneous Sensors through Language Grounding

BriefGPT - AI 论文速递 ·

港科大开源VideoVAE+，视频重建质量全面超越最新模型

机器之心 ·

该研究提出了一种半监督跨模态知识蒸馏（SCKD）方法，旨在解决4D毫米波雷达在3D目标检测中的稀疏性和噪声问题。通过融合激光雷达与雷达特征，检测性能显著提升，在VoD数据集上实现了10.38%的mAP提升。

Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection

BriefGPT - AI 论文速递 ·