机器之心 ·

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

💡 原文中文，约3800字，阅读约需10分钟。

📝

内容提要

AIxiv专栏促进学术交流，Florence-VL模型利用生成式视觉编码器Florence-2，克服传统视觉编码器的局限，提供多层次视觉特征，提升多模态任务的表现。

🎯

🔎

Florence-VL模型通过生成式视觉编码器Florence-2，克服了传统视觉编码器的局限，能够提供更细致的视觉特征。这使得Florence-VL在多模态任务中表现优越，尤其是在需要细粒度理解的OCR和文本提取任务上，展现出更高的准确性和灵活性。

Florence-VL采用的深度-广度融合策略有效结合了多层级的视觉特征和多任务提示。这种策略不仅提升了模型的整体性能，还确保了在不同任务中能够灵活适应，提供针对性的视觉信息，值得关注其在实际应用中的潜力。

传统视觉编码器如CLIP在细粒度理解和任务泛化能力上存在明显不足，往往无法满足复杂视觉任务的需求。Florence-VL的出现为解决这些问题提供了新的思路，尤其是在需要处理复杂视觉信息的场景中，具有重要的应用价值。

❓

Florence-VL模型的主要创新是提出了深度-广度融合策略，结合多任务提示和多层级特征，形成更丰富的视觉表征。

Florence-2通过生成式预训练，将多种视觉任务统一为sequence-to-sequence结构，提供多层次的视觉特征，克服了传统编码器的细粒度理解和任务泛化能力不足的问题。

实验结果显示，Florence-VL在多模态任务上表现优越，特别是在文本提取任务上，如TextVQA和OCR-Bench。

Florence-2的主要流程包括视觉编码器、任务提示机制和编码-解码框架。

Florence-VL通过通道拼接策略，将不同特征按通道维度拼接，并通过MLP映射到语言模型的输入空间，实现高效整合。

未来将探索自适应融合策略，根据任务动态调整特征的深度与广度平衡。

🏷️