小红花·文摘

HyperAI超神经 ·

本研究提出了一种名为SimBase的时间视频定位基线模型。该模型通过轻量级的一维时间卷积层和元素乘积实现跨模态交互，在两个大规模数据集上取得了先进的结果，展示了其创新潜力和效率提升。

BriefGPT - AI 论文速递 ·

本文介绍了一种多交互双解码器方法，旨在提高RGB-热成像显著物体检测的鲁棒性和准确性。提出的TNet网络通过全局光照估计和跨模态交互机制，显著提升了检测性能。此外，VT5000数据集和多级特征方法也对检测效果有积极影响。

BriefGPT - AI 论文速递 ·

本文综述了深度学习在医学影像报告生成中的研究进展，强调任务特征、视觉与文本信息的结合及跨模态交互的重要性。介绍了生成式模型、强化学习及大型语言模型在放射学报告生成中的应用，分析了不同方法的性能，并展望未来发展方向。

BriefGPT - AI 论文速递 ·

本研究提出了一种新的方法来生成并行的视觉问答风格对，以促进跨模态交互。使用大型语言模型将探测信号显式建模为VQA风格数据，并在两个基准测试中验证了该方法的有效性。

BriefGPT - AI 论文速递 ·

MobileVLM是一个专为移动设备设计的多模式视觉语言模型，具有高效的投影实现跨模态交互。在VLM基准测试中表现出与更大模型相当的性能。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上获得了21.5个token和65.3个token每秒的推断速度。

BriefGPT - AI 论文速递 ·

通过总结现有研究，确定了影响Visual-Language Pre-training模型转移攻击效果的两个因素：跨模态交互和数据多样性。提出了一种新的基于自我增强的转移攻击方法SA-Attack，并在Flickr30K和COCO数据集上验证了其有效性。

BriefGPT - AI 论文速递 ·