小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一键部署Qwen3开源三件套!端到端架构突破跨模态能力;10w个体样本!Health&Lifestyle洞悉生活方式与健康关联

阿里巴巴推出全模态大模型Qwen3-Omni,支持文本、图像、音频和视频的深度理解与生成,旨在高效协同多模态能力,推动跨模态交互发展。

一键部署Qwen3开源三件套!端到端架构突破跨模态能力;10w个体样本!Health&Lifestyle洞悉生活方式与健康关联

HyperAI超神经
HyperAI超神经 · 2025-10-02T03:00:59Z

本研究提出了基线模型SimBase,解决了时间视频定位中的复杂网络架构问题。SimBase通过轻量级一维时间卷积层和元素乘积实现跨模态交互,在两个大规模数据集上取得了先进的结果,展现了未来的创新潜力。

SimBase:时间视频定位的简单基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本研究提出了一种新的方法来生成并行的视觉问答风格对,以促进跨模态交互。使用大型语言模型将探测信号显式建模为VQA风格数据,并在两个基准测试中验证了该方法的有效性。

3AM: 一个模糊感知的多模式机器翻译数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-29T00:00:00Z

本研究提出了一种新的方法来生成并行的视觉问答风格对,以促进跨模态交互。使用大型语言模型将探测信号显式建模为VQA风格数据,并在两个基准测试中验证了该方法的有效性。

Proximity QA:利用多模式大型语言模型进行空间接近性分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-31T00:00:00Z

MobileVLM是一个专为移动设备设计的多模式视觉语言模型,具有高效的投影实现跨模态交互。在VLM基准测试中表现出与更大模型相当的性能。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上获得了21.5个token和65.3个token每秒的推断速度。

MobileVLM: 移动设备上快速、可重现和强大的视觉语言助手

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-28T00:00:00Z

通过总结现有研究,确定了影响Visual-Language Pre-training模型转移攻击效果的两个因素:跨模态交互和数据多样性。提出了一种新的基于自我增强的转移攻击方法SA-Attack,并在Flickr30K和COCO数据集上验证了其有效性。

最终组合:通过组合数据增强提高对抗样本可传递性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码