Mamba是一种新型选择性状态空间模型,优化了长序列数据处理,推理速度比Transformer快5倍,支持跨模态应用。Rust实现的Mamba-RS具备高效的推理和训练能力,并支持CUDA加速,适用于多种场景。
武汉人工智能研究院专注于跨模态智能技术,面临数据管理、安全、团队协作和模型训练等挑战。通过引入Gitee企业版,提升研发效率,确保数据安全,加速技术产业化,推动原创技术落地。
清华大学、人民大学与字节跳动团队提出了跨分子种类的生成框架UniMoMo,通过统一表示分子片段展示了其在药物设计中的潜力。该框架在多类分子任务中表现优异,验证了跨模态知识迁移的有效性。
本研究提出了一种新型降维技术AKRMap,旨在解决现有跨模态嵌入可视化方法的不足。实验结果表明,AKRMap在生成更准确和可信的可视化方面优于传统方法。
ImageBind是Meta AI的FAIR团队开发的AI模型,能够跨六种模态(图像、文本、音频、深度、热成像和IMU数据)学习联合嵌入,表现优异于零-shot分类任务,支持跨模态检索和生成等应用。
本研究提出了一种跨模态注意力机制,旨在解决将触觉与音频整合到机器人模型中的高维问题,识别信息量最大的模态,并训练层次策略以应对复杂的操控任务。
本研究提出FineLIP方法,解决CLIP模型在处理长文本时的局限性,通过细粒度对齐实现文本与图像的跨模态映射,实验结果表明其在长文本检索和生成任务中优于现有方法。
本研究提出COSMIC框架,以解决视觉语言模型在新领域测试时的适应性挑战。通过多粒度跨模态语义缓存和图查询机制,显著提高了模型的适应性,实验结果显示在离散分布任务和跨领域生成方面分别提升了15.81%和5.33%。
本研究提出了一种新的跨模态哈希检索框架PromptHash,旨在解决现有方法在语义保留和信息冗余方面的不足。通过引入亲和提示学习机制和自适应融合架构,该框架显著提升了图像与文本之间的检索性能,尤其在NUS-WIDE数据集上表现突出。
中山大学与南洋理工大学等团队提出了跨模态因果对齐框架(CRA),旨在提升视频问答的时空定位准确性与可解释性。CRA通过三个模块优化因果推理,克服现有模型的统计偏差问题,已在CVPR 2025接收并开源代码。
本研究提出了一种新型动态情感识别架构MAVEN,通过双向跨模态注意力机制整合视觉、音频和文本信息,显著提升了情感捕捉能力。实验结果表明,其在真实环境中的表现优于现有技术。
本研究提出了COMODO,一个跨模态自监督蒸馏框架,旨在解决自我中心视频模型在设备识别中的高功耗和隐私问题。COMODO通过无标注数据有效传递视频中的语义知识到IMU,显著提升人类活动分类性能,并展现良好的跨数据集泛化能力。
本研究提出了一种跨模态知识迁移学习框架(CMKT),有效整合语言知识与语音增强模型,实验结果表明其在多种条件下表现优异。
本文介绍了知识蒸馏的三种主要类型:基于响应、特征和关系的知识蒸馏,涵盖了离线、在线和自知识蒸馏的研究。总结了各类方法的核心思想及其在图像识别中的应用,探讨了多教师、跨模态和对抗知识蒸馏等扩展技术,并展望了未来发展方向。
本研究提出了一种基于课程学习的跨模态文本-分子训练框架(CLASS),旨在提高训练效率和性能。CLASS在ChEBI-20数据集上表现优异,显著节省了训练时间。
本研究提出了一种力与语言的跨模态嵌入方法,旨在改善人机交互中言语与触觉的整合。研究表明,尽管语言与物理力特征不同,但它们可以在统一的潜在空间中量化相互关系,从而实现有效沟通。
本研究提出了一种基于视觉语言模型的框架(LVLM4CEC),用于验证新闻中人物、地点和事件等实体的一致性,以对抗虚假信息传播。研究表明,该方法在实体识别上具有更高准确性,尤其在事件和地点验证方面优于传统方法,展示了视觉语言模型在跨模态实体验证中的潜力。
本研究提出了一种新方法FuSe,通过语言作为跨模态基础,微调通用机器人策略,解决了仅依赖视觉和本体感知的问题。实验结果表明,FuSe在复杂任务中的成功率提高了20%以上,显示出广泛的应用前景。
港科大团队开源的VideoVAE+是一种跨模态视频变分自编码器,采用时空分离压缩机制和文本指导,能够高效压缩和重建大幅运动视频,有效解决时序闪烁和细节模糊问题。该模型在多个数据集上表现优异,超越了多种现有技术。
该研究提出了一种半监督跨模态知识蒸馏(SCKD)方法,旨在解决4D毫米波雷达在3D目标检测中的稀疏性和噪声问题。通过融合激光雷达与雷达特征,检测性能显著提升,在VoD数据集上实现了10.38%的mAP提升。
完成下面两步后,将自动完成登录并继续当前操作。