小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

Mamba是一种新型选择性状态空间模型,优化了长序列数据处理,推理速度比Transformer快5倍,支持跨模态应用。Rust实现的Mamba-RS具备高效的推理和训练能力,并支持CUDA加速,适用于多种场景。

【Rust日报】2026-03-21 Mamba-RS: Rust实现的Mamba选择性状态空间模型

Rust.cc
Rust.cc · 2026-03-27T06:34:15Z
武汉人工智能研究院 x Gitee:跨模态智能研发的革新之路

武汉人工智能研究院专注于跨模态智能技术,面临数据管理、安全、团队协作和模型训练等挑战。通过引入Gitee企业版,提升研发效率,确保数据安全,加速技术产业化,推动原创技术落地。

武汉人工智能研究院 x Gitee:跨模态智能研发的革新之路

Gitee 官方博客
Gitee 官方博客 · 2026-01-22T09:41:48Z

清华大学、人民大学与字节跳动团队提出了跨分子种类的生成框架UniMoMo,通过统一表示分子片段展示了其在药物设计中的潜力。该框架在多类分子任务中表现优异,验证了跨模态知识迁移的有效性。

入选ICML 2025,清华/人大/字节提出首个跨分子种类统一生成框架UniMoMo,实现多类型药物分子设计

HyperAI超神经
HyperAI超神经 · 2025-05-28T05:41:31Z

本研究提出了一种新型降维技术AKRMap,旨在解决现有跨模态嵌入可视化方法的不足。实验结果表明,AKRMap在生成更准确和可信的可视化方面优于传统方法。

AKRMap:用于跨模态嵌入可信可视化的自适应核回归

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
Daanelson在Replicate上发布的Imagebind模型初学者指南

ImageBind是Meta AI的FAIR团队开发的AI模型,能够跨六种模态(图像、文本、音频、深度、热成像和IMU数据)学习联合嵌入,表现优异于零-shot分类任务,支持跨模态检索和生成等应用。

Daanelson在Replicate上发布的Imagebind模型初学者指南

DEV Community
DEV Community · 2025-04-28T20:20:06Z

本研究提出了一种跨模态注意力机制,旨在解决将触觉与音频整合到机器人模型中的高维问题,识别信息量最大的模态,并训练层次策略以应对复杂的操控任务。

Modal Selection and Skill Segmentation through Cross-Modal Attention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z

本研究提出FineLIP方法,解决CLIP模型在处理长文本时的局限性,通过细粒度对齐实现文本与图像的跨模态映射,实验结果表明其在长文本检索和生成任务中优于现有方法。

FineLIP: Enhancing CLIP's Capabilities through Fine-Grained Alignment with Longer Text Inputs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出COSMIC框架,以解决视觉语言模型在新领域测试时的适应性挑战。通过多粒度跨模态语义缓存和图查询机制,显著提高了模型的适应性,实验结果显示在离散分布任务和跨领域生成方面分别提升了15.81%和5.33%。

COSMIC: Clique-Oriented Semantic Multi-Space Integration for Robust CLIP Test-Time Adaptation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-30T00:00:00Z

本研究提出了一种新的跨模态哈希检索框架PromptHash,旨在解决现有方法在语义保留和信息冗余方面的不足。通过引入亲和提示学习机制和自适应融合架构,该框架显著提升了图像与文本之间的检索性能,尤其在NUS-WIDE数据集上表现突出。

PromptHash: Affinity-Prompted Collaborative Cross-Modal Learning for Adaptive Hashing Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

中山大学与南洋理工大学等团队提出了跨模态因果对齐框架(CRA),旨在提升视频问答的时空定位准确性与可解释性。CRA通过三个模块优化因果推理,克服现有模型的统计偏差问题,已在CVPR 2025接收并开源代码。

CVPR’25跨模态因果对齐,让机器更懂视觉证据丨中大南洋理工等联合开源

量子位
量子位 · 2025-03-17T03:58:46Z

本研究提出了一种新型动态情感识别架构MAVEN,通过双向跨模态注意力机制整合视觉、音频和文本信息,显著提升了情感捕捉能力。实验结果表明,其在真实环境中的表现优于现有技术。

MAVEN:多模态注意力的情感网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-16T00:00:00Z

本研究提出了COMODO,一个跨模态自监督蒸馏框架,旨在解决自我中心视频模型在设备识别中的高功耗和隐私问题。COMODO通过无标注数据有效传递视频中的语义知识到IMU,显著提升人类活动分类性能,并展现良好的跨数据集泛化能力。

COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究提出了一种跨模态知识迁移学习框架(CMKT),有效整合语言知识与语音增强模型,实验结果表明其在多种条件下表现优异。

语言知识迁移学习在语音增强中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述

本文介绍了知识蒸馏的三种主要类型:基于响应、特征和关系的知识蒸馏,涵盖了离线、在线和自知识蒸馏的研究。总结了各类方法的核心思想及其在图像识别中的应用,探讨了多教师、跨模态和对抗知识蒸馏等扩展技术,并展望了未来发展方向。

Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述

机器之心
机器之心 · 2025-02-19T09:20:53Z

本研究提出了一种基于课程学习的跨模态文本-分子训练框架(CLASS),旨在提高训练效率和性能。CLASS在ChEBI-20数据集上表现优异,显著节省了训练时间。

CLASS: Enhancing Cross-Modal Text-Molecule Retrieval Performance and Training Efficiency

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种力与语言的跨模态嵌入方法,旨在改善人机交互中言语与触觉的整合。研究表明,尽管语言与物理力特征不同,但它们可以在统一的潜在空间中量化相互关系,从而实现有效沟通。

力与语言的跨模态嵌入方法用于自然的人机沟通

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究提出了一种基于视觉语言模型的框架(LVLM4CEC),用于验证新闻中人物、地点和事件等实体的一致性,以对抗虚假信息传播。研究表明,该方法在实体识别上具有更高准确性,尤其在事件和地点验证方面优于传统方法,展示了视觉语言模型在跨模态实体验证中的潜力。

Verifying Cross-modal Entity Consistency in News using Vision-language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z

本研究提出了一种新方法FuSe,通过语言作为跨模态基础,微调通用机器人策略,解决了仅依赖视觉和本体感知的问题。实验结果表明,FuSe在复杂任务中的成功率提高了20%以上,显示出广泛的应用前景。

Beyond Vision: Empowering Generalist Robot Policies with Heterogeneous Sensors through Language Grounding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z
港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大团队开源的VideoVAE+是一种跨模态视频变分自编码器,采用时空分离压缩机制和文本指导,能够高效压缩和重建大幅运动视频,有效解决时序闪烁和细节模糊问题。该模型在多个数据集上表现优异,超越了多种现有技术。

港科大开源VideoVAE+,视频重建质量全面超越最新模型

机器之心
机器之心 · 2024-12-30T04:51:41Z

该研究提出了一种半监督跨模态知识蒸馏(SCKD)方法,旨在解决4D毫米波雷达在3D目标检测中的稀疏性和噪声问题。通过融合激光雷达与雷达特征,检测性能显著提升,在VoD数据集上实现了10.38%的mAP提升。

Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码