小红花·文摘

本研究提出RCMed，一个全方位的医疗AI助手，利用层次化的视觉-语言对齐技术，提高多模态输入和输出的准确性，改善细胞分割和解剖特征定位，推动以人为本的AI医疗进步。

Reinforcing the Correlation Between Vision and Language for a Precise Medical AI Assistant

BriefGPT - AI 论文速递 ·

本研究提出了LG-Gaze框架，将视线估计视为视觉-语言对齐问题，利用视觉-语言模型的先验知识，显著提升了视线估计的准确性和效率。

LG-Gaze: Learning Geometric Perception Continuity for Language-Guided Gaze Estimation

BriefGPT - AI 论文速递 ·

本研究提出ZALM3零样本策略，解决多轮多模态医学对话中因图像质量差导致的视觉语言对齐问题。该方法通过利用先前的文本信息识别图像兴趣区域，显著提升了对齐效果，实验结果显示在不同临床科室中具有良好的有效性。

ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue

BriefGPT - AI 论文速递 ·

本研究提出了一种名为PEVL的显式目标位置建模方法，用于提高VLP模型在特定视觉-语言任务上的性能。该方法将离散化目标位置与语言内容整合到一个语言建模框架中，实现显式的视觉-语言对齐，并为各种下游任务提供了灵活的提示微调方式。实验结果显示，PEVL在无检测器的VLP模型上能够取得最先进的性能，并提高在具有定位敏感输入的任务上的性能。

对于通用视觉感知同时进行对齐和提示

BriefGPT - AI 论文速递 ·