该研究提出了一种基于强化学习的单目视觉方法,实现无人机的自主着陆。该方法利用前视单目相机,优化视觉特征变化,精确估算高度和深度,展示了在无需复杂传感器的情况下进行经济有效着陆的潜力。
本研究提出了一种新颖的多模态视觉特征学习框架,有效解决了内窥镜实时自我运动追踪的挑战,实验结果表明其性能优于现有技术,推理速度超过每秒30帧。
本研究提出了一种图像描述增强的CLIP适配器(IDEA),旨在解决少样本图像分类中的信息互补不足问题。通过结合视觉特征与文本描述,IDEA在多个任务中超越了现有模型,并引入了可训练的IDEA(T-IDEA),在11个数据集上取得了领先成果。
本研究提出了Florence-VL模型,通过深度-广度融合架构增强视觉语言模型的视觉特征表达。该模型整合了Florence-2的多层次视觉特征,显著提升了视觉-语言对齐性能,并在多个基准测试中超越了现有模型,展现出强大的视觉理解和推理能力。
本研究提出了一种新方法,通过结合热特征和运动相似度,解决热成像多目标跟踪中的视觉特征缺失和复杂运动模式问题,显著提高了跟踪的准确性和鲁棒性,并提供了新的热成像和RGB图像数据集。
本研究提出RoSIS框架,解决外科仪器分割中的信息不对称问题,通过结合视觉与语言特征,提升复杂环境下的分割性能,具有重要的临床应用价值。
该研究介绍了多种文本到图像生成模型,如Parti、Muse、SEED和LaVIT,强调了大型语言模型在图像生成中的应用与进展。研究表明,随着模型规模和数据量的增加,视觉特征性能得到提升,并提出了新的图像标记器以提高生成效率和质量,展示了自回归模型在图像生成中的潜力。
本研究探讨了具体与抽象概念的视觉表现差异,分析了约1000个概念的图像。结果表明,简单的视觉特征如颜色和纹理在区分概念时优于复杂模型,而复杂模型在最近邻分析中表现更佳,强调了选择视觉特征的重要性。
介绍了一种名为CPRFL的新方法,用于长尾多标签图像分类。该方法利用预训练的CLIP模型提取类别语义,并通过与视觉特征的交互解耦类别特定的视觉表示。实验结果显示,该方法在长尾多标签图像分类任务上具有显著优势。
本文介绍了一种零样本物体检测方法,通过融合语义属性和视觉特征,提高了未知对象的检测精度。研究提出了多种技术和数据集,以应对对象属性预测的挑战,并在多个基准上取得显著改进。此外,探索了基于语言描述和图像样例的多模态分类器,显示出优于传统方法的性能。
本文介绍了一种结合多头注意力机制和医疗知识的放射学报告生成方法,通过视觉特征提升报告质量。研究表明,该方法在多个数据集上优于现有技术,能够自动生成准确的放射学报告,减轻医生负担,并通过知识图谱优化模型性能。
本文探讨了如何提取视觉特征以分析艺术作品的相似度,提出了多种基于深度学习和计算机视觉的模型,旨在提高艺术品的检索和分析能力。研究内容包括艺术风格分类、图像检索和艺术家网络构建,展示了机器学习在艺术领域的应用潜力。
本文介绍了使用少样本进行卫星图像目标检测的方法,通过大规模预训练模型构建类参考嵌入或原型,并微调原型以提高性能。研究结果表明,视觉特征优于视觉语言模型,开发的检测器在两个遥感数据集上表现出优异性能。
为了解决电影音频描述中的挑战,研究人员开发了一个新模型,使用了视觉特征、演职员表和对话的时间位置来生成电影音频描述。该模型解决了命名、生成音频描述和视觉-语言模型等问题,并在音频描述生成方面取得了改进。
本文介绍了一种新颖的原型部分网络LucidPPN,通过将颜色原型与其他视觉特征分离,减少了模型决策的模糊性。该网络通过两个推理分支处理非颜色视觉特征和颜色信息,使模型决策基于颜色、形状或纹理更加清晰。实验结果表明,LucidPPN与基准方法相比具有相当的效果,并且生成的原型部分模糊性较小,有助于用户理解。
ChatGPT和Gemini在理解显微镜图像中的视觉特征方面表现出色,SAM具备分离伪影的能力,但性能不如领域专家。模型在处理图像中的杂质、缺陷、伪影重叠和多样性时会遇到困难。
通过结合家庭人口统计和生活水平调查问题以及从卫星图像中提取的特征,预测地区贫困率。使用Sentinel-2地表反射卫星图像和单步特征化方法获得视觉特征,将贫困率估计的均方误差从4.09%降低到3.88%。通过选择与卫星图像特征互补的一小部分调查问题,验证了这些问题在预测贫困率的下游任务中的最佳表现,贫困率误差降至3.71%。证明了提取的视觉特征编码了地理和城市化之间的差异。
提出了一种新的端到端类到场景框架 (CATS),通过生成几何特征和视觉特征融合构建场景交互图,学习人与物体类别关系。在两个关键的人物-物体交互基准测试中展示了最先进的性能。
本文提出了一种新的推理框架来填补VQA任务中视觉特征和语义线索之间的语义鸿沟,实现了特征和谓词的有效联合学习,并在三个大规模数据集上实现了其他最先进方法无法比拟的准确度,同时还提供了一种可解释的方式来理解深度神经网络在预测答案时的决策。
本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用CLIP分数指导带有问题的帧采样过程,并将问题信息注入到图像Q-former的查询中以获取更重要的视觉特征。在MovieChat数据集上取得了84.2%和62.9%的全局和断点模式准确率,超过了官方基线模型的29.1%和24.1%,在CVPR LOVEU 2024长期视频问答挑战中获得了第三名。
完成下面两步后,将自动完成登录并继续当前操作。