小红花·文摘 - 小红花技术领袖俱乐部

Jina-VLM：小型多语言视觉语言模型

Jina-VLM：小型多语言视觉语言模型

Jina AI ·

本研究提出了多种深度学习方法，如SPP-net、基于超像素的卷积神经网络和上下文感知的注意力池化，显著提升了图像分类、目标检测和视频表征学习的性能。这些方法在多个数据集上表现优异，解决了传统方法中的多种挑战。

深度神经网络中的双视图金字塔池化，用于改进医学图像分类和置信度校准

BriefGPT - AI 论文速递 ·

该文介绍了一种基于边缘保持稠密自编码器网络的多模态医学图像的端到端无监督融合模型，通过波尔特分解的特征图注意力池化改进了特征提取过程，提高了源图像中精细边缘细节信息的保留和融合图像的视觉感知。实验结果表明，该方法相比其他最先进的融合方法提供了改进的视觉和定量结果。

基于拉普拉斯自编码器和通道注意力的新型多模态医学图像融合

BriefGPT - AI 论文速递 ·