GFlowVLM: Enhancing Multi-Step Reasoning in Vision-Language Models through Generative Flow Networks
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出GFlowVLM框架,旨在提升视觉语言模型在多步骤推理中的解决方案多样性和泛化能力。通过生成流网络微调,该框架增强了复杂推理任务的解决方案生成能力。
🎯
关键要点
- 本研究提出GFlowVLM框架,旨在提升视觉语言模型在多步骤推理中的解决方案多样性和泛化能力。
- GFlowVLM框架通过生成流网络微调,增强了复杂推理任务的解决方案生成能力。
- 该框架在卡牌游戏和实际规划任务中展现出增强的训练效率和更强的泛化能力。
➡️