小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
EMBridge:通过跨模态表示学习提升肌电信号的手势泛化能力

EMBridge是一个跨模态表示学习框架,旨在通过将表面肌电信号(sEMG)与高质量结构化数据对齐,提升手势识别的准确性。该框架采用查询变换器和对比学习目标,实现了零样本手势分类,展示了在可穿戴设备上进行手势识别的潜力。

EMBridge:通过跨模态表示学习提升肌电信号的手势泛化能力

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-03T00:00:00Z

本文介绍了一种基于语言描述的视频目标分割方法,利用扩展的语言基础模型实现时空连续预测。研究表明,该方法在多个数据集上优于传统技术,特别是在动态对象捕捉和跨模态学习方面。新提出的模型OnlineRefer和VD-IT在准确性和效率上均优于现有方法,推动了视频理解任务的发展。

全面参照:迈向我们在视频中能描述的所有事物的分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本文提出了一种名为MAD的方法,通过自适应蒸馏提升跨模态学习性能,尤其在视觉问答领域表现优异。同时介绍了Muffin框架和UniMM-Chat数据集,展示了在多模态任务中的先进性能。通过融合目标检测和光学字符识别,改进了多模态大型语言模型的细粒度图像理解能力,取得了显著进展。

通过增强视觉能力来改善多模态大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

研究探讨了大型多模态模型在语言、视觉和音频中出现幻觉的问题,限制了实际应用。提出“多模态的诅咒”基准,分析原因,强调跨模态学习中平衡与缓解策略的重要性。通过对比学习等方法减少幻觉,提高性能,并提出评估和缓解策略,如CrossCheckGPT和Hallu-PI,旨在解决多模态模型中的幻觉问题。

多模态的诅咒:评估大型多模态模型在语言、视觉和音频中的幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

该研究提出了STAGE框架,通过增强边界框数据集,提高视频问答的准确性。研究涵盖自我中心视频问答、跨媒体对象的QA评估基准及新型数据增强框架,展示了多种模型在视频问答任务中的性能提升。通过高斯掩模优化和跨模态学习,改善了视频定位和问答效果,推动了VQA系统的可靠性。

长形式自我中心视频中的多跳视频问答的基础研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-26T00:00:00Z

该文介绍了Meta AI Research开发的Segment Anything Model(SAM)及其多种应用,研究了RefSAM、AI-SAM、CAT-SAM等模型,探索了跨模态学习、用户交互和优化机制,显著提升了图像分割的准确性和效率。

SAM-REF:重新思考图像与提示的协同作用以细化分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文介绍了多种跨模态学习方法,如MAD、MMA和Muffin框架,旨在提升视觉与语言模型的性能。这些方法在视觉语言任务中表现出色,尤其在指称理解和多模态对话中具有竞争力。研究者们通过新数据集和模型架构探索多模态能力的有效整合,但仍面临数据集多样性和响应真实性的挑战。

跨模态适配器:高效的多模态大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z

本文介绍了多模态蒙特卡洛自动编码器(MultiMAE-DER),该模型用于动态情感识别,并优化了多模态输入序列的融合策略,显著提升了模型性能。与现有模型相比,MultiMAE-DER在多个数据集上的召回率有所提高,展示了其在跨模态学习中的有效性。

MU-MAE:基于多模态蒙版自编码器的一次性学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

本文研究了跨模态参数高效的图像到视频传递学习,提出了Spatio-Temporal Adapter,能够以较低成本实现动态视频内容的推理能力。XMAdapter通过视觉-语言双模态信息提升模型性能,实验结果表明其在准确性和效率上优于以往方法。此外,研究探讨了适配器在屏幕截图字幕任务中的应用,提出UniAdapter以实现跨模态自适应,显著减少可调参数并提升性能。

FE-Adapter:将基于图像的情感分类器适应于视频

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

本文提出了多种跨模态学习方法,包括自监督训练框架和多层次对齐方法,旨在提升文本与视频检索、行为识别等任务的性能。研究表明,这些新方法在多个数据集上优于现有技术,推动了医学机器学习和无监督匹配等领域的发展。

跨模态基于聚类的自标定方法用于多模态数据分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

本文提出了一种基于跨模态学习的深度伪造检测方法,通过融合音频和视觉特征,检测准确率和AUC分别达到98.6%和99.1%。该方法结合细粒度识别与二元分类,增强了在不同数据集上的检测能力,有效解决了模型的泛化问题,实现了对伪造视频段的准确识别。

具备统计意识的音频 - 视觉深度伪造检测器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

本文介绍了一种新的元-混合网络,通过少量标记数据指导模型学习,提出了解缠模块和域分类器以缩小域差距。研究了跨域少样本学习,提出了多模态目标检测方法和基于CLIP的跨模态提示学习,并验证了其在多个数据集上的有效性和泛化能力。

探索基于频率感知的跨域少样本分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

本研究提出了一种基于音视频的深度伪造检测方法,结合细粒度识别与二元分类,提升检测能力。通过跨模态学习,采用两阶段方法,准确率达到98.6%。基于FakeAVCeleb数据集的实验表明,集成式检测优于单模态方法,有效应对深度伪造的安全隐患。

一种基于多流融合和单类学习的音视频深伪造检测方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

本研究探讨了视频问答中视觉语言模型(VLMs)的性能,发现VLMs在证实答案方面表现较弱。为解决此问题,提出了高斯掩模优化和跨模态学习的视频定位机制,实验证明其改善了视频定位和问答效果。

揭示 VQA 中视觉定位方法的全部潜力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-15T00:00:00Z

本研究探讨了视频问答中视觉语言模型(VLMs)的性能,发现VLMs在证实答案方面表现较弱。为解决此问题,提出了高斯掩模优化和跨模态学习的视频定位机制,实验证明其改善了视频定位和问答效果。

长时间自视角视频中的基于场景的问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-11T00:00:00Z

本研究提出了基于鸟瞰图的跨模态学习方法,用于三维语义分割的领域泛化。通过鸟瞰图下的交叉模态学习,优化了与领域无关的表示建模,同时提出了鸟瞰图驱动的领域对比学习方法来建模领域无关的表示。在三个三维数据集上,BEV-DG 在所有设置中明显优于现有方法,差距显著。

朝着联网与自动驾驶的多智能体协作鸟瞰图分割的全场景域泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-28T00:00:00Z

该研究探讨了利用预训练技术进行视频语言理解的新趋势,通过迫使视觉语言模型回答问题并同时提供视觉证据,试图确定这些技术的预测在多大程度上基于相关视频内容。研究发现这些模型在证实答案方面表现较弱,提出了通过高斯掩模优化和跨模态学习的视频定位机制来解决这个问题,并发布了数据集和代码。

大型语言模型是视频问答中的时间和因果推理器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码