小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《新型蒙眼攻击破解具身大语言模型物理安全防线》

研究显示,具身AI存在漏洞,无法理解物理因果关系。Blindfold攻击框架将恶意意图转化为安全动作序列,成功率高达98%。传统防御机制效果有限,需要整合多模态信息和动作级推理以确保AI安全。

一分钟读论文:《新型蒙眼攻击破解具身大语言模型物理安全防线》

Micropaper
Micropaper · 2026-03-06T11:41:00Z

MISP 2025挑战聚焦于复杂声学条件下的会议转录,提出音视频说话者分离与识别任务。参与者通过结合音频和视频模态,显著提升了系统准确率,展示了多模态信息在语音处理中的潜力。

Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Speaker Separation and Recognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
QVQ: A Smarter Way to Perceive the World

文章讨论了QVQ模型的开发,该模型基于Qwen2-VL-72B,旨在增强人工智能的视觉理解和推理能力。QVQ在视觉推理和复杂问题解决方面表现优异,但仍存在语言混合、递归推理和安全性等局限性。未来,团队计划整合多模态信息,以提升模型智能水平。

QVQ: A Smarter Way to Perceive the World

Blog on Qwen
Blog on Qwen · 2024-12-24T16:00:03Z

本研究提出Emma-X模型,旨在解决传统强化学习在不同环境和未见对象任务中的推广问题,通过结合多模态信息,增强机器人在空间推理和规划方面的能力。

Emma-X: A Multimodal Action Model with Foundational Thinking Chains and Anticipatory Spatial Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

研究探讨了无人机在视觉-语言导航中的挑战,提出了OpenUAV平台和UAV-Need-Help基准,以及处理多模态信息的导航模型。这些创新提升了无人机的导航能力,但仍与人类操作员有差距。研究还涉及模拟与实际转化、空中视觉对话导航和开放集零样本测试,强调了人类驱动导航策略的重要性和未来发展机遇。

面向现实无人机视觉-语言导航:平台、基准和方法论

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

我们引入了一种新的大规模场景重建基准,使用高斯插值法在U-Scene数据集上测试。U-Scene覆盖超过1.5平方公里,结合了RGB和LiDAR数据。通过Matrix 300无人机和Zenmuse L1 LiDAR获取精确数据,适用于城市和学术环境的空间分析。我们评估了高斯插值法的效果,并与点云数据集对比,强调多模态信息结合的重要性。

LiDAR-GS:基于高斯喷溅的实时LiDAR重模拟

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本研究通过在路边单元部署大型语言模型,并结合多模态信息提示策略,提升了边缘设备上驾驶行为叙述和推理的效率,为自动驾驶提供了更快速准确的数据处理方案。

基于边缘设备的大型语言模型高效驾驶行为叙述与推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本研究提出了一种基于单张环境图像的多智能体架构,解决了大型语言模型和视觉语言模型在融合多模态信息时表现不佳的问题。通过利用常识知识进行自由形式域的处理,并引入新的评估程序PG2S,该方法在评估规划质量方面优于现有的KAS指标。

视觉智能基准:迈向大型多模态模型作为视觉基础代理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-12T00:00:00Z

Spatial transcriptomics技术提供了多模态的转录组、空间和形态学数据,但存在模态偏差现象。MuST方法整合了多模态信息,解决了不一致性问题,并在识别和保留组织和生物标志物结构方面优于现有方法。MuST为复杂生物系统的分析提供了多功能工具包。

HEST-1k:用于空间转录组学和组织学图像分析的数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-23T00:00:00Z

本文研究了在连续手语识别和翻译中添加多模态信息的机制,通过将光流信息与 RGB 图像结合,丰富了与运动相关的特征。我们的方法在 RWTH-PHOENIX-2014 数据集上评估,手语识别任务中词错误率降低了0.9,翻译任务中测试集上的大多数 BLEU 得分提高了约0.6。

SignMusketeers:大规模手语翻译的高效多流方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本文介绍了一种新的密集视频字幕方法,利用多模态信息描述事件,并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上进行了模型测试。

密集视频字幕生成与跨模态记忆检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

本文提出了一种新的密集视频字幕方法,利用多模态信息描述事件,并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上测试了模型。

面向鲁棒缺失模态的多模态视频段落字幕生成模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-28T00:00:00Z

本研究通过引入多模态先验,改进生成3D手势的质量。采用链式建模方法顺序生成面部融合形状、身体动作和手势,并结合节奏提示和语音情感的风格化先验生成手势。实验证实该方法达到了最先进的性能。

生成链:通过级联条件控制多模态手势合成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-26T00:00:00Z

利用多模态信息的视觉语言预训练(VLP)在自然领域的视觉识别和胸部 X 射线(CXR)的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架,旨在充分利用多个源 CXRs 的协作优势,同时减少源异质性的负面影响。

UniChest: 多源胸部 X 射线分级的征服和分割预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-18T00:00:00Z

该研究成功解决了文本和图像信息融合中的挑战,通过引入辅助损失与主任务相结合的方式利用社交媒体帖子中的多模态信息,并分析了辅助任务在特定场景和案例中的最有效性。

通过利用图文辅助任务提升社交媒体帖子的多模态分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-14T00:00:00Z
超越文字:多模态嵌入如何提升eBay的产品推荐

eBay通过整合商品标题和图片等多模态信息,提升了推荐系统的准确性和用户体验。新系统解决了低质量图片和文本嵌入分离的问题,买家参与度显著提高,点击率提升15.9%。该系统采用Siamese双塔模型和三元组损失,确保图像与文本嵌入在同一空间内,增强了推荐的相关性和个性化。

超越文字:多模态嵌入如何提升eBay的产品推荐

eBay Tech Blog
eBay Tech Blog · 2023-09-13T07:00:00Z

bioFAME是一种用于多模式生物信号建模的频率感知掩码自编码器。该方法可以在预训练过程中利用多模态信息,并且可以适应不同任务和模态。在单模态时间序列的迁移实验中,该方法相较于之前的最先进方法平均提升了5.5%,并且具有稳健性。

频率感知的多模态预训练生物信号掩码自编码器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-12T00:00:00Z

本文研究了在神经机器翻译中利用多模态信息的有效性,发现大规模预训练的单模态系统中图像可能是多余的。同时,通过合成噪声评估了图像对处理文本噪声的帮助。实验证明多模态模型在嘈杂环境中微弱地胜过纯文本模型,视觉背景的效果与源文本噪声有关,对多模态设置中的噪声神经机器翻译有所启示。强调了结合视觉和文本信息以改进翻译质量的重要性。

视觉背景对噪声多模态神经机器翻译的影响:英语到印度语言的实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码