本论文提出了一个初步实现的对话管理器,将视觉能力整合到对话代理中,以增强基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要,平衡了上下文保留和计算效率。通过实现视觉使能的对话系统,展望了无缝融合文本和视觉模态的丰富、上下文感知的对话。
完成下面两步后,将自动完成登录并继续当前操作。